用户名: 密码: 验证码:
工业数据挖掘中有偏估计问题及解决方案研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着计算机技术、信息技术和数据库技术的迅速发展,数据挖掘技术已经成为各行业研究人员的研究热点。
     工业数据挖掘的重要用途之一是建立数学模型。数学模型的典型作用是为了预测生产过程。数学建模常采用回归分析方法,模型参数的获取采用最小二乘法。最小二乘法在Gauss-Markov定理中已被证明是方差最小的无偏估计。
     工业过程数据一般质量比较差,重要表现是测量值的观测误差显著。在数学建模过程中,传统回归模型只考虑因变量的观测误差,忽略自变量的观测误差。因此用最小二乘法进行参数估计,得到模型参数估计量是有偏估计量,易造成模型参数估计失真。
     为了提高工业过程建模的可靠性,使工业过程模型能满足实际的生产过程需求。本文针对传统回归模型的局限性,研究了变量误差模型(EV模型)参数估计理论,探讨了EV模型下最小二乘参数估计法的缺陷,并提出了基于校正最小二乘的参数估计方法。
     本文的主要研究:
     1.结合回归模型的基本理论,对EV模型进行了研究,探讨了EV模型的分类及参数估计的必要条件。
     2.对误差数据进行最小二乘建模,考虑自变量存在测量误差,通过对参数估计方法逆推理,得到校正最小二乘参数估计方法。
     3.对EV模型进行校正最小二乘参数估计,在VC平台下开发仿真分析软件,该软件能对多种条件数据进行建模分析,通过仿真软件可验证EV模型下校正最小二乘参数估计法效果良好。
With the rapid development of computer technology, information technology and database technology, data mining technology has become a hot spot of research from all walks of life.
     One of an important application of industry data mining is mathematical modeling of industrial processes. The intention of mathematical models is to forecast the production process. Mathematical model is often got by regression analysis.Model parameter are often got by Least Squares(LS) method. LS method has been proved to be the smallest variance unbiased estimation in Gauss-Markov theory.
     Industrial process data are generally poorer quality, one character of performance is containing significant observational error in measurement. In the modeling process, the traditional regression model only considers the observation error of the dependent variable, does not considers the observational error of independent variable. So using LS method for parameter estimation is proved a biased estimator in industrical process model in this paper, easily giving rise to estimation distortion of parameters.
     In order to improve the reliability of model for industrial production process, and to meet the actual needs of the production process. This paper studied error-in-variable (EV) model parameter estimation theory, investigated the deficiencies of LS method in EV model, and proposed a new method based on corrected LS method.
     The main contents of this paper’s study:
     1. Combining with regression model, studied the basic theory of error in variables model in detail, and explored the classification and necessary conditions for parameters estimation.
     2. Modeling data by least-squares method, then considering variables with measurement error. The EV model parameters are estimated by inverse reasoning methods.
     3. Using corrected Least Square estimation method for the EV model, based on the VC development platform, developed an error in variable analysis software.It can simulate different kinds of data, and the EV algorithm has a good effect which is verified by using the software.
引文
[1]朱明编著数据挖掘中国科学技术大学出版社2002
    [2]张云飞龚玲著数据挖掘原理与技术电子工业出版社2004
    [3] JiaWei Han,Micheline Kambe.数据挖掘概念和技术.机械工业出版社.2007
    [4]漆永新钢铁信息化告别盲从年代信息系统工程2004年12月总第132期
    [5]史忠植编著知识发现清华大学出版社2002年1月第1版
    [6] Busche, Frederick D.(Highland Village, TX)Zekulin, Alexander Darius (Flower Mound, TX) Method and system for integrating spatial analysis and data mining analysis to ascertain relationships between collected samples and geology with remotely sensed data US Patent References: 4794534
    [7] Ferruzza A,Massimini G.Thirteenth general census of population and housing: quality control and data analysis. Rome, Italy, Istituto Nazionale di Statistica [ISTAT], 1997.121, [100]p.
    [8] Kamran Parsaye, MarkChignell, Setrag Khoshafian,Harry Wong.Intelligent databases:object-oriented, deductive hypermedia technologies.John Wiley & Sons, Inc. New York, NY, USA
    [9]邸书灵,陈娜,马新娜回归分析在关联规则挖掘中的应用研究微计算机信息2008年第24卷第1-3期
    [10]王红,苏山舞,刘东琴时间序列分析及其在测绘领域的应用初探测绘科学2008年1月第33卷第1期
    [11]孙吉贵,刘杰,赵连宇聚类算法研究软件学报2008年01期
    [12]赵宣,王伟平入侵检测系统报警信息关联分析模型的设计与实现计算机与现代化2008年02期
    [13]陈扬人工智能在数据清洗中的应用上海交通大学优秀硕士论文2006年
    [14]魏道政,马绍汉人工神经网络的结构学习算法及问题求解研究中国科学院研究生院(计算技术研究所)中国优秀博士论文
    [15]曹忠升,薛梅艳基于决策树的软件分类方法计算机工程2008年01期
    [16]明亮遗传算法的模式理论及收敛理论西安电子科技大学中国优秀博士论文
    [17]郭小发空间对象的连续可视最近邻查询处理研究浙江大学中国优秀硕士论文
    [18]石倩,陈荣,鲁明羽基于规则归纳的信息抽取系统实现计算机工程与应用2008年21期
    [19]钟波,罗会亮不完备信息的粗糙集-贝叶斯识别方法重庆大学学报2008年01期
    [20]贾秀芹,习丽综合评价的多元统计分析方法青海大学学报(自然科学版)2007年04期
    [21] (美)霍格林等著;陈忠琏,郭德媛译探索性数据分析中国统计出版社, 1998.03
    [22]苏异才预测模型的挖掘研究及其在宝钢质量控制中的应用2005.12
    [23]王光宏,蒋平数据挖掘综述同济大学学报(自然科学版)2004年02期
    [24]贾小勇,徐传胜,白欣最小二乘法的创立及其思想方法西北大学学报(自然科学版) 2006年6月,第36卷第3期
    [25]于林关于无偏估计的几个问题高等数学研究Vol.9,No.4
    [26]王正明关于线性回归模型的有偏估计系统科学与数学1995.10
    [27]王建国主编检测技术及仪表中国电力出版社2007.7
    [28]李德仁.误差处理和可靠性理论.北京:测绘出版社,1988:73-91
    [29]牟盛静石化工业过程建模与优化若干问题研究浙江大学中国优秀博士学位论文
    [30]胡贤磊,赵忠,邱红雷,矫志杰,刘相华,王国栋中厚板轧制过程实测温度的处理[J]轧钢第21卷第6期2004.12
    [31]董逵,顾佳晨铁水含硅量预报模型的研究冶金企业自动化、信息化与创新——全国冶金自动化信息网建网30周年论文集,2007年
    [32]滕明鑫,熊忠阳,张玉芳动态数据挖掘研究计算机应用2008年S1期
    [33]武建虎,贺佳,贺宪民程红岩多变量缺失数据的不同处理方法及分析结果比较第二军医大学学报2004年09期
    [34] Ian White, Chris Frost and Shoji Tokunaga. Correcting for measurement error in binary and continuous variables using replicates [J].STATISTICS IN MEDICINE. Statist. Med. 2001; 20:3441–3457 (DOI: 10.1002/sim.908)
    [35] Chao-Yang Gau and Mark A. Stadtherr. Deterministic Global Optimization for Error-in-Variables Parameter Estimation[J]. PROCESS SYSTEMS ENGINEERING.June 2002 Vol. 48, No. 6. 1192-1197
    [36] C.M.Andersen, R.Bro1and P.B.Brockhoff.Quantifying and handling errors in instrumental measurements using the measurement error theory[J]. JOURNAL OF CHEMOMETRICS. J. Chemometrics 2003;17:621–629. Published online in Wiley InterScience (www.interscience.wiley.com). DOI: 10.1002/cem.830
    [37] Havi Murad and Laurence S.Freedman.Estimating and testing interactions in linear regression models when explanatory variables are subject to classical measurement error[J] STATISTICS IN MEDICINE. Statist. Med. 2007; 26:4293–4310
    [38] Fuller W A.Measurement error models.Wiley,1987,15(3):11-16
    [39]Adcock R.J(1877) Note on the method of least squares. Analyst,4,183-184
    [40]Kummel C.H (1879)Reduction of observed equation more than one observed quantity.Analyst.6,97-105
    [41]Pearson K.(1901)On lines and planes of closest fit to systems of points in space.Philos.Mag.2.559-572
    [42]Michael G.Akitas(1996)On the grouped LSE under an errors-in-variables model.Statistics and Probability Letters.28,181-189
    [43]Marcel G.Dagenais & Denyse L.Dagenais(1997) Higher moment estimatiors for linear regression models with errors in the variables.Journal of Econometrics,76,193-221.
    [44]Shunpu Zhang & Rohana J. Karunamuni(1997)Bayes and empirical Bayes estimation with error in variables,Statics and Probability letters.76,169-181
    [45]He X & Liang H(2000)Quantilc regression estimates for a class of linear and partially linear errors-in-variables models.Statistica Sinica.10,129-140
    [46]Joerg Polzchl&Silvelyn Zwanzig(2004)On a symmetrized simuationextrapolation estimator in linear errors-in-variables models.Computational Statistics and Data Analysis.47,675-688
    [47]Ori Davidov(2005)Estimating the slope in measurement error models-a different perspective.71,215-223.
    [48]张三国关于EV回归模型的研究中国科技大学博士论文2002
    [49]时正华复杂数据分类和EV模型应用研究河海大学优秀硕士论文2003年
    [50] Kendall M G, Stuart A. The Advanced Theory of Statistics , Vol 2. New York :Charles Griffin , 1979
    [51]Carroll R J , Ruppert D , Stefanski L A. Measurement Error in Nonlinear Models. London : Chapman & Hall , 1995
    [52]张尧庭,方开泰,多元统计分析引论,科学出版社,1982
    [53] Monar.PA.P EstimatingsurteotralnadufnetionalerlationshiPs,J.MultivariateAnal., 1971(l):232一25
    [54]周江文系统误差的数学处理[J]测绘工程第8卷
    [55]李勇.结构关系度量误差回归模型的相合估计.北京师范大学学报(自然科学版)第30卷第3期1994.9
    [56]张三国、陈希孺EV多项式模型的估计中国科学(A辑)第31卷第10期2001.10
    [57]陈希孺,王松桂.线性模型中的最小二乘法.上海:上海科学技术出版社, 2003:5-82
    [58]林正炎陆传荣苏中根概论极限理论基础高等教育出版社1999
    [59]陈希孺,王松桂.近代回归分析.合肥:安徽教育出版社.1987.
    [60]李勇,唐守正.广义线性度量误差模型[J].应用概率统计,2006,22(1):81-88
    [61]刘湘蓉.最小二乘估计关于误差分布的稳健性.应用概率统计,2006,22(4):429-437
    [62]周江文,黄幼才,杨元喜等.抗差最小二乘法.武汉:华中理工大学出版社, 1997:50-73
    [63] [56]周江文.经典误差理论与抗差估计.测绘学报,1989,18(2):34-56
    [64]李勇.结构关系度量误差回归模型的相合估计.北京师范大学学报(自然科学版),1994,30(2):308-312
    [65]李永慈,唐守正.度量误差对模型参数估计值的影响及参数估计方法的比较研究.生物数学学报,2006,21(2):285-290
    [66]崔恒健.EV模型中参数估计M估计的渐进正态性【J].科学通报.1995.11
    [67]张三国,陈希糯.有重复观测时EV模型修正极大似然估计的相合性[J1.中国科学(A辑).2000.6
    [68]宗序平线性测量误差模型及其诊断[J].系统工程学报1999.6
    [69]高玉福,梁华.关于EV线性回归模型中的广义最小二乘估计[J].数学实践与认识.1996.10
    [70]王正明,易东云.测量数据建模与参数估计[M].国防科技大学出版社.1997
    [71]程龙生,吴可法,黄志同.消除复共线性影响的一种新的解决办法[J].工程数学学报.1998.5
    [72]王正明,易东云.测量数据建模与参数估计[M].国防科技大学出版社.1996

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700