用户名: 密码: 验证码:
一类复杂观测数据模拟的统计诊断及对策
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
在科学研究和实际生产的许多领域中,普遍存在着数据的分析处理工作,复杂观测数据的分析处理在实际应用中有很重要的意义。本文针对一类具体的复杂水沙观测数据,在前人研究工作基础上,对所研究的复杂数据进行了统计诊断,建立了普通最小二乘意义下的多元线性回归模型,并对此模型进行了模型检验,同时应用回归诊断的方法对此模型进行了诊断。
     因为数据自变量间存在着严重的多重相关性,用普通的最小二乘法做出的回归,有可能使得回归模型在预测时变得不稳定。考虑到数据的样本容量较小,而且存在多重相关性,使用偏最小二乘回归法,建立了偏最小二乘回归模型。同时考虑到岭回归能有效地消除多重相关性,因此进一步建立了所研究数据的岭回归模型。将两种新的回归模型与普通最小二乘回归模型比较,发现偏最小二乘和岭回归方法能够减少参数拟合的均方误差,增强了模型的普适性,使得模拟效果更好。
     本文的亮点是基于一类复杂观测数据的普通最小二乘回归方法的诊断,针对问题的特性,用偏最小二乘回归方法和岭回归方法改进模型,并进行这些回归模型的精度比较。两种新回归模型普适性增强,模型更为稳定,模拟的效果优于普通最小二乘法。
In many areas of scientific research and actual production, there exists much work about analyzing and processing data. Analyzing and processing complicated observation data is very valuable and significant to actual application. In this paper, according to a kind of concrete complicated water and sediment observation data, we has carried on the statistical diagnosis to the complicated data which studied, established the multi- linear regression model and examined the model, at the same time we diagnosis this model based on the predecessor research work .
     Because there is a serious problem of the multi-correlations between independent variables, the ordinary least squares method has the possibility to cause the model unstable to prediction .Considered the sample capacity of the data is small, moreover the data has the multi-correlations, the model of partial least squares regression is established, using the method of partial least squares regression, meanwhile, considered the ridge regression can effectively eliminate the multi-correlations, the model of ridge regression is also established . Comparing the two kind of new regression models to the ordinary least squares model ,the result show that the method of partial least squares regression and ridge regression can reduce the mean square of parameters estimation, strengthen model generality and make the simulation effect to be better.
     This article luminescent spot is that the methods of partial least squares regression and ridge regression can improve the model ,then the precision of these regression models is compared according to the diagnosis of a kind of complicated observation data and in view of the question characteristic . Two kind of new regression models increase the generality of the model, and the model is stabler, the simulation effect surpasses the ordinary least squares method.
引文
[1] 刘嘉焜.应用随机过程[M].北京:科学出版社,2000.3.
    [2] 刘次华.随机过程[M].武汉:华中科技大学出版社,2001.6.
    [3] 陈希孺.数理统计引论[M].北京:科学出版社,1981.
    [4] 陈希孺,王松桂.近代回分析[M].合肥:安徽出版社,1987.
    [5] 韦博成等.统计诊断引论[M].南京:东南大学出版社,1991.
    [6] 何斌,于义良.回归诊断的软件求解[J].雁北师范学院学报,2001,17(3):22~25.
    [7] 张从文.变系数模型和半参数广义线性模型的统计分析[D].南京:南京理工大学硕士学位论文,2006.
    [8] 刘应安,韦博成,林金官.误差为ARMA(1,1)的非线性回归模型的相关性和异方差性的检验[J].东南大学学报,2001,31(6):98~102.
    [9] 胡跃清,韦博成.非线性回归模型中误差的相关性检验[J].中国统计学报(台湾),1994,32:499~506.
    [10] Yang Hu, Zhu Li-xing. Adaptive Unifies Biased Estimators of Parameters in Linear Model[J]. Acta Mathematice Application Sinica, 2004, 20(3): 425~432.
    [11] 韦博成,林金官,吕庆喆.回归模型中异方差或变离差检验问题综述[J].应用概率统计,2003,19(2):210~220.
    [12] 林金官,韦博成.非线性纵向数据模型中方差和自相关系数的齐性检验[J].应用数学学报,2004,27(3):466~480.
    [13] Lin, J. G. and Wei, B. C. Testing for Heteroscedasticity and/or Correlation in Nonlinear Regression Models with Correlated Errors[J]. Commun Statist-Theory Meth. (美国SCI), 2004, 33(2): 251~275.
    [14] Lin, J.G.,Wei, B.C. and Zhang, N.S..Varying dispersion Diagnostics for inverse Gaussian regression models[J].Appl.Statist. (英国SCI), 2004, 31(10), 1157-1170.
    [15] Tang, N. S., Wei, B. C. &Wang, X R. Some diagnostics in non-linear reproductive dispersion models[J]. Appl. Math-JCU, 2000(15): 55~64.
    [16] Cook, Weisberg. Residual and influence in regression[J]. New York: Chapman & Hall, 1982.
    [17] 韦博成,鲁国斌,史建清.统计诊断[M].南京:东南大学出版社,1991.
    [18] McCullagh, P. and Nelder, J. A. Generalized linear models[J]. London: Chapman & Hall, 1989.
    [19] Wei, B. C. Exponential family nonlinear models[J]. Sinapore: Springer-Verlag, 1998.
    [20] 唐年胜.系统工程中非指数族非线性模型的统计分析.南京:东南大学博士学位论文,1999.
    [21] 宗序平.系统工程中指数族非线性模型和测量误差模型的统计分析[D].南京:东南大学博士学位论文,1999.
    [22] 杨莲.数据挖掘的统计模型和算法的研究[D].重庆:重庆大学硕士学位论文,2005.
    [23] 宗序平,韦博成.线性回归诊断中的若干问题[J].高等应用数学学报,1993(3).
    [24] 林金官.非线性模型的异方差和变离差检验[D].南京:东南大学博士学位论文,2002.
    [25] Aitkin, M. (1987). Modeling variance heteroscedasticity in normal regression using GLIM[J]. Applied Statistics, 36, 332~339.
    [26] Baltagi, B.H. & Li, Q.(1980). A joint test for serial correlation and random individual effects[J].Statistics&Probability Letters, 11,277~280.
    [27] Baksalary, J.K., Nurhonen, M. & Puntanen, S. (1992).Effect of correlations and unequal variances in testing for outliers in linear regression[J]. Scand. J. Statist. 19:91~95;
    [28] Barndorff-Nielsen, O. E.&Cox, D. R.(1989). Asymptotic techniques for use in statistics.Londan: Chapman and Hall.
    [29] 林金官,韦博成.加权非线性随机系数模型异方差性的Score检验[J].工程数学学报,2002,19(2):109~115.
    [30] 王彤,何大卫.线性回归中的影响点与多元共线性关系初探[J].现代预防医学,1999,26(4):429~431.
    [31] 丁元林,孔丹莉,毛宗福.多重线性回归分析中的常用共线性诊断方法[J].数理医药学杂志,2004,17(4):299~300.
    [32] 柳丽,魏庆诤,赵树安.回归分析中多重共线性的诊断与处理[J].中国卫生统计,1994,11(1):5~71.
    [33] 孟庆和.多元回归分析中多重共线性的处理[J].中国卫生统计,1997,14(1):49~50.
    [34] 孟庆和.多元回归分析中多重共线性的处理[J].中国卫生统计,1997,14(1):49~50.
    [35] 柳丽,魏庆诤,赵树安.回归分析中多重共线性的诊断与处理[J].中国卫生统计,1994,11(1):5~7.
    [36] 朱军.线性模型分析原理[M].北京:科学出版社,2000.
    [37] 何晓群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1996.
    [38] 王彤,何大卫.线性回归中多个异常点的稳健诊断及医学应用[J].中国卫生统计,1998,15(5):1~4.
    [39] 黄有余.数据分析中的异常点诊断[J].长沙铁道学院学报,1997,15(2):62~64.
    [40] 赵良渊,何大卫,王彤.多元线性回归方程中共线影响点的诊断[J].中国卫生统计,2004,21(2):66~69.
    [41] Walker E. Detection of Collinearity2 Influential Observations[J]. Communi2 cations in Statistics. Theory and Methods, 1989, 18(5): 1675~1690.
    [42] Hawkins, D., Identification of Outliers[J].Chapman and Hall,London,1980.
    [43] R. J. Beckman, R. D. Cook, Outlier....s[J]. Technometrics, 1983, 25(2).
    [44] 袁永生,时正华,朱庆平.改进的多元方差分析用于黄河水位过程研究[J].水利学报,2003,(11):48~53.
    [45] 胡汝南,张优礼,李世东等.黄河下游变动河床洪水位预报方法的探讨[A].水位预报论文集[C].北京:水利电力出版社,1985:76~83.
    [46] 麦乔威,赵亚安,潘贤弟等.黄河下游来水沙特性及河道冲淤规律的研究[A].科学研究论文集[C].郑州:河南科学技术出版社,1990:100~146.
    [47] 袁永生.冲淤河道相应水位过程中的非线性分析[D].江苏南京:河海大学,2002:38~39.
    [48] 吕栋雷,曹志耀,邓宝,汪亚夫.利用方差分析法进行模型验证[J].计算机仿真,2006,23(8):46~48.
    [49] 韦博成,史建清.数据变换模型的局部影响分析[J].应用数学学报,1994,17:132~143.
    [50] 宗序平,韦博成.线性回归诊断的若干问题[J].高校应用数学学报,1993,8:279~289.
    [51] 严华生,谢应齐,曹杰.非线性统计预报方法及其应用[M].云南:云南科技出版社,1998:47~53.
    [52] 任若恩,王惠文.多元统计数据分析——理论、方法、实例[M].北京:国防工业出版社,1997.
    [53] 唐年胜,韦博成.多元加权线性模型的影响分析[J].东南大学学报,1998,28:92~97.
    [54] 吕书龙,刘文丽.基于复共线性关系的设计矩阵的回归诊断方法[J].福州大学学报(自然科学版),2002,30(3):270~272.
    [55] 祁洪全,何灿芝.线性回归模型误差相关的一种诊断方法[J].经济数学,2001,18(1):52~56.
    [56] 张恒喜,郭基联,朱家元,虞健飞.小样本多元数据分析方法及应用[M].西安:西北工业大学出版社,2002.9.
    [57] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
    [58] 蒋红卫,夏结来.偏最小二乘回归及其应用[J].第四军医大学学报,2003,24(3):280~283.
    [59] 王惠文.PLS回归对多变量信息的综合与筛选作用分析[J].数理统计与管理,1998,(4).
    [60] 邓念武,许晖.单因变量的偏最小二乘回归模型及其应用[J].武汉大学学报,2001,34(2):14~16.
    [61] 许凤华,李述山.基于改进的偏最小二乘回归的酸雨pH值预测[J].山东科技大学学报(自然科学版),2006,25(3):110~112.
    [62] 王惠文,杨湘龙.两种成分提取回归方法的比较分析[J].北京:北京航空航天大学学报,1998,5.
    [63] 徐洪钟,吴中如.偏最小二乘回归在大坝安全监控中的应用[J].大坝观测和土木测试,2001,25(6):22~23.
    [64] 杨杰,吴中如.观测数据拟合分析中的多重共线性问题[J].四川大学学报(工程科学版),2005,37(5):19~24.
    [65] 李智录.基于神经网络的灌区融雪型河源来水预报模型[J].农业工程学报,2006,(4).
    [66] 汪洋.PLS回归应用实例[J].安徽大学学报(自然科学版),2001,25(3):18~23.
    [67] 覃新闻,李智录,李波.基于偏最小二乘回归的融雪型洪水预报模型[J].水文,2006,26(5):38~40.
    [68] 丁元林,孔丹莉,毛宗福.多重线性回归分析中的常用共线性诊断方[J].2004,17(4):299~230.
    [69] 岳珠.岭回归中的掩盖和提升现象[J].山西师大学报,1998,12(3).
    [70] 杨虎.关于回归系数的泛岭估计类[J].重庆交通学院学报,1991,10(3).

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700