设为首页 | 加为收藏 | 联系我们 | [登录] | [注册]
在研项目
基于相似紧邻的缺失数据填补关键技术研究
发布时间:2017-09-04 15:08:46| 浏览次数:

1、项目来源

自然科学基金

2、项目摘要

由于不完整输入、数据抽取错误、异质数据格式等众多原因,数据缺失的情况非常普遍,严重影响各种应用的可靠性。缺失数据填补作为数据质量管理的基础问题之一,引起学术界和工业界广泛关注。现有的数据填补方法受数据稀疏性和多样性所限,紧邻缺乏,导致大量空值无法被填补。本项目首次提出基于相似紧邻的填补策略,即利用数据之间的相似关系(而非传统的相等关系),识别更多的紧邻,从而增加缺失数据填补的机会。基于相似紧邻的缺失数据填补在国际上是首次被提出,面临许多新的挑战,亟待解决。本项目拟从理论和实践的角度,对相似紧邻填补问题进行如下研究:(1) 相似紧邻填补问题的复杂度、可近似度等理论基础分析;(2) 基于相似紧邻的最优填补计算方法;(3) 高效率近似填补算法及其近似比率保证等。最终形成一套完整的相似紧邻填补理论成果和高效率填补计算方法,并应用于互联网个人信息、企业日志信息的清理与管理等社会生活和生产的重要领域。


 
 
 上一篇:多应用模式下的多源数据实时精准采集与高效清洗
 下一篇:大规模过程数据管理与挖掘
在研项目
联系我们

大数据系统软件国家工程实验室

申报单位:清华大学,北京理工大学

共建单位:中国人民解放军国防科学技术大学、中山大学、北京百度网讯科技有限公司、腾讯云计算(北京)有限责任公司、北京大学、中国人民大学、阿里云计算有限公司

地 址:北京市海淀区清华大学

联系人:宗慧

电 话:010-62791196

邮 编: 100084

版权所有:大数据系统软件国家工程实验室

备案号:京ICP备17012374号