用户名: 密码: 验证码:
基于Internet的中文文本过滤系统的研究与实践
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文简要介绍了文本过滤的背景,系统地探讨了文本过滤与文本检索及机器学习等领域的紧密联系,以一种典型的中文文本过滤逻辑模型为例,深入研究了实现中文文本过滤系统所涉及的各个方面的理论和技术,其中包括概念扩展,文本结构分析和特征抽取,潜在语义标注及自适应学习等技术。文章借鉴了其它文本过滤系统的优点,充分考虑了系统的召回率,查准率,运行效率及可实现性,给出了一种改进的中文文本过滤系统的体系结构,增加了类匹配模块和用户兴趣反馈模块。并详细阐述了一种混合式的中文文本过滤方法,给出了实现该系统主要模块的数学模型及其相关的算法。
     利用Java技术对整个中文文本过滤系统的功能模块进行了尝试性的实践。在实践中,实现了自动构建反向词频库,改进了关键词权重计算方法,增加了主题句权重计算方法,调节了数学模型中的相关系数,还增加了其它传统的过滤引擎所没有的同义扩展及查询修正等功能,取得了一定的过滤效果。
     最后,针对本系统在过滤的精确率上不太理想的特点,对本课题下一步要研究的内容进行了系统的总结,并提出了自己的一些看法。
This paper briefly describes the background of text filtering and systematically discusses the relationship of text filtering and text retrieval, machine learning, etc. Taking the example of a kind of typical Chinese text filtering logic model, it studies the related theory and technology that can realize Chinese text filtering system thoroughly, including concept expansion, Chinese text structure analysis and feature extraction, latent semantic indexing, self-adaptive learning, etc. Then considering the systematic recall, precision, operational efficiency and feasibility, an improved Chinese text filtering system architecture is proposed, the clustering matching modules and the feedback modules of users' interests are added. The approach of the hybrid Chinese text filtering is explained in detail. In addition, the main mathematical models and the relevant algorithms of the system are put forward.
    The tentative practice to some functions of the whole system has been carried on using Java technology. In practice, the reverse term frequency database is constructed automatically, and the technique of the keywords' weight is improved, and the calculating method of the subject sentences' weight is increased, and the coefficients of the mathematics models are regulated. Furthermore, it has also increased such functions as synonymy expansion and modification, which obtain certain results.
    Finally, the precision of filtering is not ideal, so the next contents of this subject are summarized systematically and some one' s own views are also presented.
引文
[1] 吴立德等.大规模中文文本处理.上海:复旦大学出版社,1997,7
    [2] 姚天顺,朱靖波,张刑,杨莹编著.自然语言理解-一种让机器懂得人类语言的研究(第2版).北京:清华大学出版社,2002,10
    [3] 晋耀红.基于语义的文本过滤系统的设计与实现.计算机工程与应用,2003,17
    [4] 杨波,胡俊华,李金屏.一种复合式中文信息过滤机制.小型微型计算机系统,2003,24(7)
    [5] 尤文建,李绍滋,李堂秋.基于概念扩充的文本过滤模型.计算机工程与应用,2003,25
    [6] 林鸿飞.基于混合模式的文本过滤模型.计算机研究与发展,2001,38(9)
    [7] KonstanJ, MillerB, MaltzDetal. GroupLen: Collaborative filtering for usenet news. Communication of the ACM, 1997, 40(3): 77-87
    [8] Olsson T. Decentralized social filtering based on trust. In: Recommender System Workshop Papers. Tech Rep: WS-98-08, AAAIPress, 1998
    [9] http://www.iipl.fudan.edu.cn/research/Natural-Language/Natural-Language.html
    [10] Douglas W. Oard. User Modeling for Information Filtering. http://www.ee.umd.edu/medlab/filter/papers/umir.html
    [11] Douglas W. Oard. Adaptive Filtering of Multilingual Document Streams. http://www.ee.umd.edu/medlab/filter/papers/smc95.ps
    [12] http://www.iipl.fudan.edu.cn/research/Text-Filtering/Text-Filtering.html
    [13] 陶跃华,孙茂松.搜索引擎中相关性反馈技术.情报理论与实践,2001,4
    [14] 刘开瑛,郭炳炎.自然语言处理.北京:科学出版社,1991
    [15] 林鸿飞,战学钢,姚天顺.基于概念扩充的中文文本过滤模型.计算机科学,2000,27(2)
    [16] 林鸿飞,战学刚,姚天顺.文本结构分析与基于示例的文本过滤.小型微型计算机系统,2000,21(4)
    [17] 尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型.计算机应用研究,2003,9
    [18] 林鸿飞,占学刚,姚天顺.文本特征区域与文本过滤的匹配机制.2000,7
    [19] 林鸿飞,姚天顺.基于示例的中文文本过滤模型.大连理工大学学报,2000,40(3)
    [20] 牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用.计算机工程与应用,2001,9
    [21] 林鸿飞,马雅彬.基于聚类的文本过滤模型.大连理工大学学报,2002,4(2)
    [22] 李振星,徐泽平,唐卫清,唐荣锡.基于兴趣模型的WEB信息预测采集过滤方法.计算机工程与应用,2003,5
    [23] 黄萱菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统.软件学报,2003,14(3)
    
    
    [24] 林鸿飞,王剑峰.基于合作模式的文本过滤模型.小型微型计算机系统,2001,22(11)
    [25] 刘绍翰,武港山,张福炎.基于词条权值得相关反馈算法在Web信息检索中的应用.情报学报,2002,21(6)
    [26] Uri Hanani, Bracha, Shapira and Peretz Shoval. Information Filtering: Overview of Issues, Research and Systems. Department of Information Systems Engineering, Ben-Gurion University, 2000
    [27] http://www.nlp.org.cn/
    [28] http://www.hncnlp.com/
    [29] 田范江,李丛蓉,王鼎兴.进化式信息过滤方法研究.软件学报,2000,11(3)
    [30] 刘明吉,饶一梅,王秀峰,黄亚楼.基于模糊近似度的Web文本过滤模型.计算机科学,2001,28(12)
    [31] 自丽君,张永奎,陈鑫卿.协作过滤研究概述.电脑开发与应用,2002,15(11)
    [32] 张殿勇.互联网内容识别和中文文本信息过滤.辽宁行政学院学报,2003,5(3)
    [33] 金峰,刘永丹,江宝林,胡运发.TTFS:一个倾向性文本过滤系统的设计与实现.计算机工程与应用,2003,30
    [34] 张爱民.自然语言处理及其智能搜索引擎模型的设计研究.兰州理工大学硕士论文.2003,6
    [35] 林鸿飞,李业丽,姚天顺.中文文本过滤的信息分流机制.计算机研究与发展,2000,37(4)
    [36] Oard D. Information filtering resources, http://www.ee.umd/medlab
    [37] Qi hu. Matthias Eichstaedt and Daniel Ford, Efficient profile matching for large scale webcasting. IBM Almaden Research Center, Technical Report, 1997
    [38] 蔡自兴,徐光著.人工智能及其应用.北京:清华大学出版社,2002,2
    [39] 罗三定,陆文彦,王浩,贾维嘉.基于概念的文本类别特征提取与文本模糊匹配.计算机工程与应用,2002,16
    [40] 周绪等著.SQL Server2000中文版入门与提高.北京:清华大学出版社,2001,5
    [41] (美)Ivor Horton著;马树奇译.Java 2编程指南(JDK 1.3版).北京:电子工业出版社,2001,11
    [42] (美)Danny Ayers等著;王辉等译.Java数据编程指南.北京:电子工业出版社,2002,1
    [43] (美)Steven Holzner著;江帆等译.JAVA 2技术内幕.北京:中国水利水电出版社,2002,5
    [44] http://www.mypcera.com/softxue/pian/jsp.htm
    [45] http://159.226.40.18/project/ir.htm

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700