用户名: 密码: 验证码:
基于数据挖掘技术的海关执法评估系统的研究与开发
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
计算机网络与数据库技术的迅速发展和广泛应用,使得“丰富的数据与贫乏的知识”问题亟待解决。因此,我们必须寻求新技术和自动工具,以便帮助我们从大量数据中找到潜在有用的信息和知识。数据挖掘技术和KDD(数据库中的知识发现)系统作为一种崭新的技术和工具,能自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。
     数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是知识发现过程的一个基本步骤。KDD是一门交叉学科,它涉及统计学、数据库技术、计算机科学、模式识别、人工智能、机器学习等多个学科。
     数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益。本文探讨了数据挖掘在政府部门的应用,并给出一个具体的实例。在对SAS提供的各种数据挖掘工具和方法比较之后,选择了适合本课题需要的方法应用于海关总署直属海关执法评估系统的开发项目中,并取得了满意的结果。
     论文共有八章:
     第1章:简略介绍了知识发现和数据挖掘的概念与发展现状、知识发现的过程与数据挖掘的分类、本课题的研究背景和意义以及论文的主要研究内容。
     第2章:介绍数据挖掘之前的数据预处理技术。讨论数据清理、数据集成和变换、数据归约的方法。
     第3章:介绍基于回归模型的预测方法。包括多元线性回归、曲线回归以及逐步回归模型。
     第4章:介绍聚类分析方法。首先介绍聚类和分类的概念,然后讨论了十一种数据聚类方法。
    
     一
     第 5章:介绍决策树方法。详细阐述了决策树的构造算法,并提出在数
     据挖掘中应用决策树方法时需要考虑的问题和解决的方法。
     第 6章:介绍神经网络方法。主要讨论人工神经元与感知器以及人工神
     经网络模型,包括BP神经网络和RBF神经网络。
     第7章:介绍海关执法评估系统的开发环境和有关方法、功能需求与设
     计分析以及开发与实现。
     第8章:提出了数据挖掘算法下一步的发展方向。
The rapid development in and wide application of computer network and database technology makes acute the "data-rich but knowledge-poor" problem. So,we must find new ways to extract potentially useful information and knowledge from data. Data mining and KDD aim to provide neoteric techniques and tools to automatically analyze the data,to automatically classify it,to automatically summarize it,to automatically discover and characterize trends in it,and to automatically flag anomalies.
    Data mining is a promising and flourishing frontier in database systems and new database applications. Knowledge discovery is a uncommon process of identifying effective new potentially useful and finally accessible patterns. Data mining is an essential step in the process of KDD. KDD is a multi-disciplinary field of research. Statistics,database technology,computer science,mode recognition,artificial intelligence and machine learning all make a contribution.
    Data mining has been widely used in biomedical field financial field retail industry and telecommunication industry. This paper discusses application of data mining in government,and gives an actual example. After comparing all kinds of tools for data mining provided by SAS,we select methods adapt to the task,and all these algorithm is applied in the project of General Custom for customs directly under General Custom to execute the law and evaluate work. The result is satisfied.
    There are eight chapters in this paper.
    Chapter 1:The concept of and development in knowledge discovery and data mining,the process of knowledge discovery,the classification of data .mining,the study background and significance of the task,the main contents of this paper are introduced in this chapter.
    Chapter 2:This chapter describes techniques for preprocessing the data prior
    
    
    to mining. Methods of data cleaning,data integration and transformation,and data reduction are discussed.
    Chapter 3:This chapter describes methods for data prediction based on regression. Linear and Multiple Regression,Curvilinear Regression and Stepwise Regression are included.
    Chapter 4:This chapter describes methods of cluster analysis. It first introduces the concept of data clustering and data classification. Then it discusses eleven methods of cluster analysis.
    Chapter 5:This chapter describes methods of decision tree. The arithmetic for constructing a decision tree is described in detail. Some improvements are presented.
    Chapter 6:This chapter describes techniques of neural network. It mainly discusses artificial nerve cell and perceptron. BP network and RBF network are described in this chapter.
    Chapter 7:This chapter introduces the setting and methods of the system,the function requirement,the detailed design and the final implements.
    Chapter 8:The further research directions of data mining are presented in this chapter.
引文
[1]尹朝庆,尹皓.人工智能与专家系统.北京:中国水利水电出版社,2002.296~306
    [2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术.北京:机械工业出版社,2001.70~94
    [3]史忠植.知识发现.北京:清华大学出版社,2002.1~17
    [4]Alex Berson,Stephen Smith. 构建面向CRM的数据挖掘应用.北京:人民邮电出版社.2001.85~107
    [5]R·格罗思.数据挖掘——构筑企业竞争优势.西安:西安交通大学出版社.2001.
    [6]刘同明.数据挖掘技术及应用.北京:国防工业出版社.2001.1~9
    [7]Claude Seidman.SQL Server 2000数据挖掘技术指南.北京:机械工业出版社.2002.
    [8]Mike Gunderloy,Tim Sneath.SQL Server开发指南——OLAP(联机分析处理).北京:电子工业出版社.2001.
    [9]王珊.数据仓库技术与联机分析处理.北京:科学出版社.1998.
    [10]王永庆.人工智能原理与方法.西安:西安交通大学出版社.1998.
    [11]吴泉源,刘江宁.人工智能与专家系统.长沙:国防科技大学出版社.1995.
    [12]王士同.神经模糊系统及其应用.北京:北京航空航天大学出版社.1998.
    [13]蔡自兴,徐光佑.人工智能及其应用(第二版).北京:清华大学出版社.1996.
    [14]刘叙华.基于归结方法的自动推理.北京:科学出版社.1994.
    [15]何晓群.现代统计分析方法与应用.北京:中国人民大学出版社.1998.
    [16]高惠璇.实用统计方法与SAS系统.北京:北京大学出版社.2001.
    [17]耿素云,张立昂.概率统计(第二版).北京:北京大学出版社.1998.
    [18]金新政,胡彬.SAS for Windows统计系统教程.武汉:华中科技大学出版社.2001.
    [19]高惠璇.SAS系统·Base SAS软件使用手册.北京:中国统计出版社.1997.
    [20]高惠璇.SAS系统·SAS/STAT软件使用手册.北京:中国统计出版社.1997.
    [21]高惠璇.SAS系统·SAS/ETS软件使用手册.北京:中国统计出版社.1997.
    [22]美国SAS软件研究所上海办事处.SAS基础教程.北京:中国统计出版社.1997.
    
    
    [23]石磊.OLAP与数据挖掘一体化模型的研究与发展.计算机科学,2000(5):45~49
    [24]陈元.数据开采与统计学.计算机工程与应用,2000(5):15~17
    [25]钟晓,马少平,张钹.数据挖掘综述.模式识别与人工智能,2001(3):48~52
    [26]顾祺涛,王泽兵.数据仓库和数据挖掘技术在电力负荷管理中的应用研究,浙江大学硕士学位论文,2000年
    [27]蔡戟,王泽兵,数据挖掘技术在电视台信息系统中的应用研究.浙江大学硕士学位论文.2001年
    [28]杨睿,胡保生.KDD和数据挖掘及其应用.西安交通大学硕士学位论文.1998年
    [29]SAS/广州办事处.客户流失管理中的数据挖掘.
    [30]Http://www.sas. com. SAS Institute China-产品信息(SAS Enterprise Miner).
    [31]Http://www.sas. com. SAS Institute China-产品信息(SAS OLAP).
    [32]Http://www. sas. com. SAS Institute China-产品信息(SAS Warehouse Administrator)
    [33]Http://www.sas. com. SAS Institute China-在线教程.
    [34]Ian H.Witten, Eibe Frank. Data Mining/Practical Machine Learning Tools and Techniques with Java Implemetation. Morgan Kaufmann, 2000
    [35]Bhavani Thuraisingham. Data Mining: technology, techniques, tools and trends. CRC Press, 1999
    [36]Alex Berson, Stephen J. Smith. Data Warehousing, Data Mining, &OLAP. McGraw-Hill, 1999
    [37]Berry M and G Linoff. 1997. Data Mining Techniques. John Wiley
    [38]Fayyad U, Piatetsky-Shapiro, Smyth, Uthurusamy. Advances in Knowledge Discovery and Data Mining. MIT Press, 1996
    [39]Haykin S. Neural Networks:A Comprehensive Foundation. Macmillan/IEEE Press,1994
    [40]Heckerman D. Bayesian networks for data mining. Data Mining and Knowledge Discovery, 1997(1):79-119

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700