用户名: 密码: 验证码:
Isomap用于中药生产过程近红外光谱在线检测研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
质量控制是中药现代化过程的核心问题。现行工艺采用中药指纹图谱技术实现质量控制,由于分析时间长,不能实现在线质量分析。近红外(NIR)光谱技术分析速度快、能反映待测物质多种理化性质,因此适于中药生产过程在线检测。
     本文主要研究中药NIR光谱的回归建模方法,即建立中药NIR光谱与其化学成分含量及质量信息的定量预测模型。本文首先研究将常规算法–偏最小二乘(PLS)应用于NIR光谱建模,并基于Visual C++编程工具开发了一套NIR光谱建模软件。该软件具有多种光谱预处理和波长选择算法,功能齐全,可分别在离线和在线两种情况下实现NIR光谱建模。针对NIR光谱与待测理化性质之间存在的非线性关系,本文重点研究将流形学习算法引入到NIR光谱建模中,并提出若干改进算法。
     流形学习算法是最近提出的一类有广泛应用前景的非线性降维方法,能揭示高维数据有意义的低维结构。本文主要研究流形学习中的一种算法–等距映射(Isomap),并将Isomap算法引入NIR光谱建模,同时对该算法进行了改进。首先针对Isomap算法中的距离公式和近邻点个数K的选取,研究了该算法的扩展:引进核函数方法改进Isomap算法中的距离公式形成kIsomap算法;提出了根据样本分布密度来选择近邻点个数的dIsomap算法;集成kIsomap和dIsomap算法形成kdIsomap算法。结合PLS,提出一种NIR光谱建模的新方法–先用各种Isomap算法对NIR光谱数据做非线性降维,再用PLS做线性降维并建立校正模型。将这些方法应用于两个公共的NIR数据集建模,得到了更好的建模效果。
     Isomap是作为一种非线性降维方法提出的,它不能处理新样本,也不能用于监督学习。借鉴最近提出的Kernel Isomap算法能够处理新样本的功能,进一步利用Isomap与KPCA之间的联系,以及KPCA与KPCR之间的联系,将Isomap算法进行扩展,提出了监督的Isomap算法–SKIsomap,其既能处理新样本又能用于回归,从而拓展了Isomap算法的应用范围。将SKIsomap算法应用于建立安神补脑液提取过程中的二苯乙烯苷和淫羊藿苷的回归校正模型,效果较好。
     本文还研究了流形学习的其他两种算法:局部线性嵌入(LLE)、拉普拉斯正则化最小二乘(LapRLS)。提出了NIR光谱的LLE-PLS非线性建模方法和LapRLS半监督回归方法,并应用于建立丹参多酚酸盐柱层析过程中丹酚酸B含量的回归校正模型。
     本文将中药指纹图谱技术、NIR光谱在线检测技术、流形学习算法和自动控制技术综合应用于中药生产过程中,可实现对药物体系中化学成分群的实时监测及生产工艺的实时控制,对保证产品质量的均一、稳定、可控具有重要意义。
Quality control is the core issue of the modernization of Traditional ChineseMedicine (TCM). The currently used fingerprint techniques cannot be used in theonline quality control for its long analysis time. Fortunately, the techniques of nearinfrared (NIR) can be adopted for its short analysis time and its ability to re?ect thephysical abilities of the analytes.
     Modeling methods of NIR spectra were mainly studied in this dissertation. Fore-casting calibration models were set up between o?ine NIR spectra and reference valuesof the fingerprints and the information of the online products. First, a software wasdeveloped based on Visual C++ and the commonly used modeling algorithm -partialleast squares (PLS). This software possessed various methods for spectra pretreatmentas well as wavelength selection, and can be used in both o?ine and online modeling.More importantly, manifold learning was introduced into the NIR modeling for thenonlinear relations between NIR spectra, and some improvements were made.
     Manifold learning algorithms are kinds of novelly promoted nonlinear methodsfor dimension reduction, which can e?ectively find out the intrinsic low dimensionalstructure from high dimensional data. One of these algorithms -Isometric mapping(Isomap) was studied and improved in this dissertation, which was introduced intoNIR modeling. First, some expansions were made to Isomap. That is, kIsomap methodwas established after the introducing of Kernel function; dIsomap could select numberof the neighbor points according to the density of sample distribution; kdIsomap wasformed after integrating kIsomap and dIsomap. Then a nonlinear modeling mothedwas put forward by combining Isomap algorithms and PLS. In the method, Isomapalgorhthms were used to reduce the dimensions of the high dimensional NIR spectraldata. PLS was used to dimension reducing and modeling by succession. Finally, allthe methods were applied to two public benchmark NIR datasets and modeling. Andresults showed that the modeling methods were better than PLS.
     Isomap is an important nonlinear algorithm for dimension reduction, but cannotbe used to process new samples and therefore cannot serve as a supervised learningalgorithm. Based on the capability of Kernel Isomap to process new samples, therelations exist between Isomap and KPCA as well as the relations exist between KPCAand KPCR, a new method -superviese Isomap (SKIsomap), which can be applied tonew samples and regression was put forward and applied to correlate the NIR spectrawith the concentrations of chrysophenine and icariin in the extraction of Anshen BunaoYe.
     The other two algorithms of manifold learning algorithms were also studied in this dissertation, namely locally linear embedding (LLE) and Laplacian Regularized LeastSquares (LapRLS). LLE-PLS and LapRLS regression were put forward. And it wasapplied to correlate the NIR spectra with the concentrations of salvia acid B in theelution of column chromatography of Salvianolate.
     The techniques of TCM fingerprint, NIR online determination, manifold learn-ing algorithms and auto-control were integrated and applied to TCM manufacture inthis study, and actualized the real-time monitoring and online control of the chemi-cal components in the medicine, consequently guarantee the uniformity, stability andcontrollability of the product quality.
引文
[1] 罗国安, 王义民, 曹进等. 建立我国现代中药质量标准体系的研究 [J]. 世界科学技术 - 中药现代化杂志, 2002, 4(4): 5-11.
    [2] 罗国安, 杨辉华, 王勇等. 现代中药生产的近红外在线检测及智能控制系统 [A].见: 陆婉珍, 袁洪福, 褚小立等编. 当代中国近红外光谱技术 - 全国第一届近红外光谱学术会议论文集 [C]. 北京: 中国石化出版社,2006:47-53.
    [3] 曹进, 王义明, 罗国安等. 中药指纹图谱与全面质量管理 [J]. 世界科学技术 – 中药现代化, 2002, 4(5): 32-37.
    [4] 曹进, 饶毅, 沈群等. 中药指纹图谱及其建立原则 [J]. 中药析药与临床药, 2001,12(3): 200-203.
    [5] 任德权. 中药质量控制的里程碑 – 中药指纹图谱 [J]. 中成药, 2001, 23(1): 1-2.
    [6] 武果桃, 繁政治. 中药指纹图谱的研究与发展趋势 [J]. 中国农村科技, 2006, (1):32-33.
    [7] 兰作平, 曲中堂. 论中药指纹图谱研究现状及研究过程的标准化 [J]. 西部药学,2006, (2): 70-73.
    [8] 陆婉珍, 袁洪福, 徐广通等. 现代近红外光谱分析技术 [M]. 北京: 中国石化出版社,2000.
    [9] 严衍禄, 赵龙莲, 韩东海等. 近红外光谱分析基础与应用 [M]. 北京: 中国轻工业出版社, 2005.
    [10] 邢志娜, 张达磊. 近红外光谱分析技术及其在中药领域的应用进展 [J]. 时珍国医国药, 2005, 16(5): 416-418.
    [11] 褚小立, 袁洪福, 陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J]. 化学进展, 2004, 16(4): 528-542.
    [12] 田高友, 袁洪福, 刘慧颖. 近红外光谱的小波特性研究 [J]. 光谱学与光谱分析, 2006,26(8): 1441-1444.
    [13] 应义斌, 刘燕德, 傅霞萍. 基于小波变换的水果糖度近红外光谱检测研究 [J]. 光谱学与光谱分析, 2006, 26(1): 63-66.
    [14] 王惠文. 偏最小二乘回归方法及其应用 [M]. 北京: 国防工业出版社, 1999.
    [15] 任若恩, 王惠文. 多元统计数据分析——理论、方法、实例 [M]. 北京: 国防工业出版社, 1997.
    [16] 王惠文, 吴载斌, 孟洁. 偏最小二乘回归的线性与非线性方法 [M]. 北京: 国防工业出版社, 2006:55-127.
    [17] 祝诗平. 人工神经网络 NIR 定量分析方法及其软件实现 [J]. 农业机械学报, 2007,38(1): 108-111.
    [18] 王艳斌, 袁洪福, 陆婉珍等. 人工神经网络用于近红外光谱测定柴油闪点 [J]. 分析化学, 2000, 28(9): 1070-1073.
    [19] 杨南林, 程翼宇, 瞿海斌. 用人工神经网络 - 近红外光谱法测定东虫夏草中的甘露醇 [J]. 分析化学, 2003, 31(6): 664-668.
    [20] 赵琛, 瞿海斌, 程翼宇. 虫草氨基酸的人工神经网络近红外光谱快速测定方法 [J].光谱学与光谱分析, 2004, 24(1): 50-53.
    [21] 张录达, 金泽宸, 沈晓南等. SVM 回归法在近红外光谱定量分析中的应用研究 [J].光谱学与光谱分析, 2005, 25(9): 1400-1403.
    [22] 吴荣晖, 邵学广. 近红外光谱用于植物样品中水溶性氯离子含量的测定 [J]. 光谱学与光谱分析, 2006, 26(4): 617-619.
    [23] 侯振雨, 蔡文生, 邵学广. 主成分分析 - 支持向量回归建模方法及应用研究 [J]. 分析化学, 2006, 34(5): 617-620.
    [24] Seung,H.S. & D.D.Lee. The manifold ways of perception[J]. Science, 2000, 290(5500):2268-2269.
    [25] Tenenbaum,J.B., Silva,V.D. & J.C.Langford. A Global Geometric Framework for Non-linear Dimensionality Reduction[J]. Science, 2000, 290(5500):2319-2323.
    [26] Roweis,S. & L.Saul. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.
    [27] 徐蓉, 姜峰, 姚鸿勋. 流形学习概述 [J]. 智能系统学习, 2006, 1(1): 44-51.
    [28] 张军平. 流形学习及应用 [D]. 北京: 中国科学院自动化研究所, 2003:9-20.
    [29] 张军平, 王珏. 流形学习 [A]. 见: 周志华, 曹存根编. 神经网络及其应用 [M]. 北京:清华大学出版社, 2004: 172-207.
    [30] 褚小立, 袁洪福, 陆婉珍. 用于石化工业的光谱和波谱类过程分析技术 [J]. 现代科学仪器, 2006, (3): 8-13.
    [31] 褚小立, 袁洪福, 陆婉珍. 近年来我国近红外光谱分析技术的研究与应用进展 [J].分析仪器, 2006, (2): 1-10.
    [32] 褚小立, 袁洪福, 陆婉珍. 在线近红外光谱过程分析技术及其应用 [J]. 现代科学仪器, 2004, (2): 3-21.
    [33] 郑守志. 基于流形学习理论的空间信息源研究及应用 [D]. 北京: 中国科学院计算技术研究所, 2006:10-19.
    [34] Donoho,D. & C.Grimes. Hessian eigenmaps:Locally linear embedding techniques forhigh-dimensional data[J]. P NATL ACAD SCI USA, 2003, 100(10): 5591-5596.
    [35] Zhang,C.H., Wang,J. & N.Y.Zhao, et al. Reconstruction and analysis of multi-poseface images based on nonlinear dimensionality reduction[J]. Pattern Recotnition, 2004,37(1): 325-336.
    [36] 詹德川, 周志华. 基于集成的流形学习可视化 [J]. 计算机研究与发展, 2005, 42(9):1533-1537.
    [37] 赵连伟, 罗四维, 赵艳敞等. 高维数据的低维嵌入及嵌入维数研究 [J]. 软件学报,2005, 16(8): 1423-1430.
    [38] 何力, 张军平, 周志平. 基于放大因子和延伸方向研究流形学习算法 [J]. 计算机学报, 2005, 28(12): 2000-2009.
    [39] Bengio,Y., Paiement,J.F. & P.Vincent. Out-of-sample extension for LLE, Isomap,MDS,Eigenmap, and Spectral Clustering[A]. In: Advances in Neural Information Pro-cessing Systems[C]. USA: MIT Press,2004, pp.2197-2219.
    [40] Ham,J., Lee,D.D., Mika,S. & B.Scholkopf. A kernel view of the dimensionality reductionof manifold[A]. In: Proceedings of International Conference on Machine Learning[C].Canada: Ban? Press, 2004, pp.369-376.
    [41] Scholkopf,B., Smola,A.J. & K.R.Muller. Nonlinear component analysis as a kerneleigenvalue problem[J]. Neural Comput, 1998, 10, (5): 1299-1319.
    [42] Choi,H. & S.Choi. Kernel Isomap[J]. Electronics Letters. 2004, 40(25): 1612-1613.
    [43] Hastie,T. & W.Stuetzle. Principla Curves[J]. Journal of the American Statistical As-sociation, 1988, 84(406): 502-516.
    [44] Kegl,B., Krzyazk,A. & T.Linder, et al. Learning and design of principal curves[J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2000, 22(3): 281-297.
    [45] Bishop,C.M., Sevensen,M. & C.K.I.Williams. GTM: The generative topographic map-ping[J]. Neural Computation, 1998, 10(1): 215-234.
    [46] Chang,K. & J.Ghosh. A unified model for probabilistic principal surfaces[J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2001, 23(1): 22-41.
    [47] Belkin,M. & P.Niyogi. Laplacian eigenmaps for dimensionality reduction and data rep-resentation[J]. Neural Computation, 2003, 15(6): 1373-1396.
    [48] Hinton,G. & S.Roweis. Stochastic neighbor embedding[A]. In S.Thrun, S.Becker andK.Obermayer (eds). Neural Information Proceeding Systems: Natural and Synthetic[C].Canada: Vancouver Press. 2002. pp.833-840.
    [49] Brand,M & Merl. Charting a manifold[A]. In S.Thrun, S.Becker and K.Obermayer(eds). Neural Information Proceeding Systems: Natural and Synthetic[C]. Canada: Van-couver Press. 2002. pp.961-968.
    [50] Belkin,M., Niyogi,P. & V.Sindhwani. Manifold Regularization: A Geometric Frame-work for Learning for Examples[R]. Univ. of Chicago, Department of Computer Science,2004.
    [51] Zhang,Z.Y. & H.Y.Zha. Principal manifolds and nonlinear dimensionality reductionvia tangent space alignment[J]. SIAM Journal of Scientific Computing, 2005, 26(1):313-338.
    [52] 倪永年. 化学计量学在分析化学中的应用 [M]. 北京: 科技出版社, 2004.
    [53] 齐小明, 张录达, 柴丽娜等. 主成分 - 逐步回归 -BP 算法在近红外光谱定量分析中应用的研究 [J]. 北京农学院学报, 1999, 14(3): 47-52.
    [54] 王炜, 马钦忠, 林命迥等. 主成分分析及地震活动参数的约简 [J]. 地震学报, 2005,27(5): 524-531.
    [55] 尹力, 刘强, 王惠文. 偏最小二乘相关算法在系统建模中的两类典型应用 [J]. 系统仿真报, 2003, 15(1): 135-145.
    [56] 罗批, 郭继昌, 李锵等. 基于偏最小二乘回归建模的探讨 [J]. 天津大学学报, 2002,35(6): 783-786.
    [57] Roman,R. & K. Nicole. Overview and recent advances in partial least squares[J]. LectureNotes In Computer Science Rosipal. 2006, 3940: 34-51.
    [58] Song,K., Wang,H,Q & P.Li. PLS-based optimal quality control model for TE process[J].2004 IEEE International Conference on Systems, Man and Cybernetics. 2004: 1354-1359.
    [59] 王凤霞, 张卓勇, 王亚敏. 有机环境污染物紫外光谱检索的神经网络方法 [J]. 光谱学与光谱分析, 2006, 26(5): 908-912.
    [60] 宋国安, 丛培盛, 潘卫刚等. 化学计量学建模软件的开发及应用 [J]. 计算机与应用化学, 2006, 23(3): 260-262.
    [61] 祝诗平, 王一鸣, 张小超. 农产品近红外光谱品质检测软件系统的设计与实现 [J].农业工程学报, 2003, 19(4): 175-179.
    [62] 赵琛. 用于中药分析的近红外光谱多元校正方法学研究 [D]. 浙江: 浙江大学,2003:19-23.
    [63] 张巧杰. 直链淀粉检测方法与技术研究 [D]. 北京: 中国农业大学,2005:64-80.
    [64] 何晓群, 刘文卿. 应用回归分析 [M]. 北京: 中国人民大学,2001:37-40.
    [65] 何香香. 治疗心血管疾病新药 – 丹参多酚酸盐研制成功 [J]. 中国基础科学, 2005,(4):17.
    [66] 中华人民共和国药典 (一部) [S]. 北京: 化学工业出版社, 2005: 52.
    [67] 苗阳, 高铸烨, 徐凤芹, 等. 丹参多酚酸盐治疗冠心病心绞痛 (心血瘀阻证) 的临床研究 [J]. 中国新药与临床药理, 2006, 17(2): 140-144.
    [68] 高蕊, 张颖, 王书臣, 等. 丹参酚酸盐在健康志愿者的药代动力学和药效学研究 [J].中国临床药理学与治疗学, 2004, 9(11): 1209-1212.
    [69] Jakob,C., Lars,N. & H.Hanne, et al. Rapid spectroscopic analysis of marzipan - com-parative instrumentation[J]. Near Infrared Spectroscopy. 2004,12: 63-75.
    [70] Jakob,C., Lars,N. & H.Hanne, et al. Marzipan dataset[EB/OL]. http://www.models.life.ku.dk/research/data/, 2004.
    [71] 张玲. PLS 定标法在近红外光谱分析仪中的应用研究 [J]. 光学精密工程, 2000,8(3): 238-241.
    [72] 刘平年. PLS 法和 PCA 法在近红外光谱定量分析中的应用研究 [J]. 广州食品工业科技, 2004, 20(4): 106-107+134.
    [73] 王韬, 张录达, 劳彩莲等. PLS 回归法建立适应温度变化的近红外光谱定量分析模型 [J]. 中国农业大学学报, 2004, 9(6): 76-79.
    [74] 王丽杰, 郭建英, 徐可欣. 近红外光谱分析中建模样品优选方法的研究 [J]. 红外技术, 2005, 27(1): 75-78.
    [75] 齐小明, 张录达, 杜晓林等. PLS-BP 法近红外光谱定量分析研究 [J]. 光谱学与光谱研究, 2003, 23(5): 870-872.
    [76] 林敏, 吕进. 基于神经网络与近红外光谱的玉米成分检测方法 [J]. 红外技术, 2004,26(3): 78-81.
    [77] 李春伟, 吴清. 基于 Isomap 的高维数据可视化研究 [J]. 河北工业大学学报, 2007,34(增刊): 84-85.
    [78] 翁时锋, 张长水, 张学工. 非线性降维在高维医学数据处理中的应用 [J]. 清华大学学报 (自然科学版), 2004, 44(4): 485-488.
    [79] Richard,S. & P.Robert. Image distance functions for manifold learning[J]. Image andVision Computing, 2007, 25(3): 365-373.
    [80] Weng,S., Zhang,C., Lin,Z. & X.Zhang. Mining the structural knowledge of high-dimensional medical data using Isomap[J]. Med. Biol. Eng. Comput., 2005,43: 410-412.
    [81] Cox,T. & M.Cox. Multidimensional Scaling[M]. London: Chapman and Hall, 2001.
    [82] Muller,K.R., Mika,S., Ratsch,G. & K.Tsuda, et al. An introduction to kernel-basedlearning algorithms[J].IEEE Transactions on Neural Networks, 2001, 12(2): 181-201.
    [83] 王华忠, 俞金寿. 核函数方法及其模型选择 [J]. 江南大学学报. 2006, 5(4): 500-504.
    [84] 田盛丰. 基于核函数的学习算法 [J]. 北方交通大学学报, 2003, 27(4): 1-8.
    [85] 李映, 张艳宁, 赵荣椿. 核学习机研究 [J]. 计算机工程与应用, 2004, (17): 4-6+17.
    [86] Balasubramanian,M., Tenenbaum,J.B., Silva,V.D. & J.C.Langford. The Isomap algo-rithm and topological stability. Science, 2002,295(5552):7a.
    [87] 邵超, 黄厚宽, 赵连伟. P-ISOMAP:一种新的对邻域大小不甚敏感的数据可视化算法 [J]. 电子学报, 2006, 34(8): 1497-1501.
    [88] Wulfert,F.W.T. & A.K.Smilde. In?uence of temperature on vibrational spectra andconsequences for the predictive ability of multivariate models[J]. Anal. Chem, 1998,(70): 1761-1767.
    [89] Wulfert,F.W.T. & A.K.Smilde. Float dataset[EB/OL]. http://www.bdagroup.nl/downloads/bda downloads.html, 1998.
    [90] Wittman,J. Manifold learning demonstration GUI[EB/OL]. http://www.math.umn.edu/ wittman/mani/index.html, 2005.
    [91] Tenenbaum,J.B., Silva,V.D. & J.C.Langford. Isomap algorithm[EB/OL]. http://isomap.stanford.edu/, 2000.
    [92] Williams,C.K.I. On a connection between kernel PCA and metric multidimensionalscaling[J]. Machine Learning, 2002, 46: 11-19.
    [93] 高海华, 杨辉华, 王行愚. 基于 PCA 和 KPCA 特征提取的 SVM 网络入侵检测方法 [J]. 华东理工大学学报(自然科学版), 2006, 32(3): 321-326.
    [94] 吴今培. 基于核函数的主成分分析及应用 [J]. 系统工程, 2005, 23(2): 117-120.
    [95] 樊立萍, 于海斌, 袁德成等. 基于 KPCA 的 SBR 过程监视 [J]. 仪器仪表学报, 2006,27(3): 249-253.
    [96] 赵丽红, 孙宇舸, 蔡玉等. 基于核主成分分析的人脸识别 [J]. 东北大学学报(自然科学版), 2006,27(8): 847-850.
    [97] Choi,H. & S.Choi. Kernel Isomap on Noisy Manifold[J]. Proceedings of 2005 4th IEEEInternational Conference on Development and Learning, 2005: 208-213.
    [98] Gu,R.J. & W.B.Xu. Face Recognition Based on Supervised Kernel Isomap[J]. IEEEComputational Intelligence and Security, 2006 International Conference, 2006, (1):674-677.
    [99] Choi,H. & S.Choi. Robust kernel Isomap[J]. Pattern Recognition. 2007, (40): 853-862.
    [100] 中华人民共和国药典 (一部) [S]. 北京: 化学工业出版社, 2005: 453.
    [101] Choi,H. & S.Choi. Kernel Isomap algorithm[EB/OL]. http://people.cs.tamu.edu/hchoi/, 2004.
    [102] 吕杰, 任仙怡, 张桂林. 基于局部线性嵌入和 Fisher 鉴别准则的目标识别方法 [A].见:沈黎颖编. 全国炼钢连铸过程自动化技术交流会论文集 [C]. 北京: 《冶金自动化》2006 年增刊, 2006: 686-689.
    [103] 谭璐, 吴翊, 易东云. 稳健局部线性嵌入方法 [J]. 国防科技大学学报, 2004, 26(6):91-95.
    [104] Poggio,R., Rifkin,R. & S.Mukherjee, et al. General conditions for predictivity in learn-ing theory[J]. Nature, 2004, 428(6981): 419-422.
    [105] Belkin,M., Niyogi,P. & V.Sindhwani. LapRLS algorithm[EB/OL]. http://manifold.cs.uchicago.edu/manifold regularization/software.html,2004.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700