用户名: 密码: 验证码:
数据挖掘中的数据清理技术概述
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Overview of Data Cleaning Techniques in Data Mining
  • 作者:于琦
  • 英文作者:YU Qi;Library, Henan University of Economics and Law;
  • 关键词:数据挖掘 ; 数据清理 ; 数据预处理
  • 英文关键词:data mining;;data cleaning;;data preprocessing
  • 中文刊名:HNKJ
  • 英文刊名:Henan Science and Technology
  • 机构:河南财经政法大学图书馆;
  • 出版日期:2018-07-15
  • 出版单位:河南科技
  • 年:2018
  • 期:No.646
  • 语种:中文;
  • 页:HNKJ201820025
  • 页数:3
  • CN:20
  • ISSN:41-1081/T
  • 分类号:23-25
摘要
随着信息技术的发展,每天都会产生海量数据,我们正处于一个知识爆炸的大数据时代。大数据受到企业界、科技界、政府等各行各业的高度重视。面对庞大的数据集群,需要用数据挖掘的方法来从众多数据中找到隐藏信息。无论在数据分析还是数据挖掘过程中,数据预处理都处于重要地位,占据数据挖掘过程总工作量的60%~80%,数据预处理过程决定着数据挖掘结果的准确性和有效性,而数据清理在数据挖掘中具有重要作用。本文针对各数据挖掘中数据格式不统一、数据清理过程不完善、冗余数据繁多及数据挖掘任务对数据类型的要求不同等问题,探讨了数据清理的基本概念、作用、方法和其中几个关键技术。
        With the development of information technology, massive data will be generated every day. We are in theera of big data explosion. Big data is highly valued by businesses, science and technology, government and so on.Faced with huge data clusters, data mining is required to find hidden information from many data. In the process ofdata analysis and data mining, data preprocessing occupies an important position, occupying the 60%~80% of the to-tal workload of data mining. Data preprocessing determines the accuracy and effectiveness of data mining results, anddata cleaning plays an important role in data mining. In this paper, the basic concepts, functions, methods and severalkey technologies of data cleaning were discussed in view of the problems of different data formats, incomplete datacleaning process, numerous redundant data and different requirements for data types.
引文
[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小蜂,译.北京:机械工业出版社,2007.
    [2]Richard J.Roiger,Michael W.Geatz.数据挖掘教程[M].翁敬农,译.北京:清华大学出版社,2003.
    [3]郑庆华,刘均,田峰,等.Web知识挖掘:理论、方法与应用[M].北京:科学出版社,2010.
    [4]代昆玉,胡滨.基于数据仓库的数据清理技术概述[J].贵州大学学报(自然科学版),2007(3):283-284.
    [5]庄晓青,徐立臻,董逸生.数据清理及其在数据仓库中的应用[J].计算机应用研究,2003(6):147-149.
    [6]唐新余,陈海燕,李晓,等.数据清理中几种解决数据冲突的方法[J].计算机应用研究,2004(12):209-211.
    [7]菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004(7):117-118.
    [8]许向阳,佘春红.近似重复记录的增量式识别算法[J].计算机工程与应用,2003(12):191-193.
    [9]李坚,郑宁.对基于MPN数据清洗算法的改进[J].计算机应用与软件,2008(2):245-247.
    [10]陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006(1):100-103.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700