用户名: 密码: 验证码:
基于WEB页面的关键词与关键概念提取技术
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
关键词技术是文本信息处理的一项重要技术。目前,由于计算机在自然语言理解方面还有很大的不足,关键词提取是在进行文本自动摘要、文本自动分类、主题词提取、主题提取等凡是涉及到文本信息理解的工作时,都要应用到的一项关键技术。
    本论文详细介绍了一种基于Web页面的关键词与关键概念提取技术及其实验系统的设计与实现,并对该技术在搜索引擎中的应用进行了探讨。论文的核心内容包含以下三部分:
    首先,关键词提取系统介绍。围绕着Web页面的特殊性开始,依据Web页面不同于一般文本的特殊性,介绍了一种基于Web页面的关键词提取技术。该技术的实现充分利用了Web页面中的各种标记。
    然后,关键概念提取系统介绍。语言是一种不断发展的文化,新概念层出不穷,同时还存在很多人名、地名、机构名等专有名词。这些概念的存在影响了关键词的提取质量。从常用的N元语法入手,分析该方法存在的问题——N元截断效应,提出了一种基于上下文和互信息的关键概念提取方法。该方法的实现克服了N元算法的截断效应,实现了可变长的概念提取方法。同时,本文又结合规则选词的方法,对提取结果进行了优化,取得较好的实验效果。
    最后,论文对该技术在搜索引擎中的应用在理论进行了简单的探讨。通过对搜索引擎中“相关性(系统角度的相关性与用户角度的相关性)”问题的分析,提出了一种改进的系统角度的“相关性”模型,并对该模型的系统实现进行了构想与设计。
Keyword Extraction is an important technique of text information process. At present, Keyword Extraction is an important technique used for automatic abstract, automatic classification, subject extraction, subject word extraction etc.
     The paper introduces a new technique of keyword extraction and key concept extraction based on Web page, the design and implement of experimental system, and the application of the system in the search engine. The paper includes three main part.
    First, Keyword Extraction System. The paper describes the special of Web page compared with the common text. Depending on the special, a technique of keyword extraction based on Web page is introduced. The system takes full advantage of tags in the Web page.
    Second, Key Concept Extraction System. Language is a developing culture, and new concepts are produced. And many proper names which include person name, geography name and corporation name, are new unknown concept. These concepts have an impact on the result of Keyword Extraction system. The paper brings forward a key concept extraction technique based on the mutual information and context dependency. The means avoids the truncation effect of N-gram model and realizes vari-gram statistical model of concept extraction. At the same time, the paper adopts the way based on rules to optimize the extraction result.
    In the end, a simple research is done for the application of the system in the Search engine. By analyzing the relevance of search engine, the paper brings forward a improved system relevance model and describes the design of the model.
引文
[1] 石纯一、黄昌宁、王家钦,人工智能原理,清华大学出版社,1993.10;
    [2] 王宏钧、张惠苓,标引关键词,大连民族学院学报,2000.1,第2卷,1期,
    page53~58;
    [3] 罗式胜,科学文献关键词链的概念——一种统计分析方法,情报学报,
    1994.4,第13卷,2期,page126~131;
    [4] 王永成,张坤,中文文献自动分类研究,情报学报,1997.10,第16卷,
    5期,page354~359;
    [5] 李有梅,基于词义的关键词抽取方法的研究,情报理论与实践,2000,第
    23卷,2期,page81~83;
    [6] 韩客松,王永成,Web页面中文文本的主题自动提取研究,情报学报,2001.4,
    第20卷,2期,page218~223;
    [7] 陈小荷,自动分词中未登录词问题的一揽子解决方案,语言文字应用,1999,
    第3期,page103~109;
    [8] 宋柔,朱宏,潘维桂,尹振海,基于语料库和规则库的人名识别方法,计
    算语言学研究与应用,北京语言学院出版社,1993;
    [9] 张普,张光汉,现代汉语“有穷多层列举”自动分词方法的研究,语言自
    动处理,武汉大学出版社,1988;
    [10] 王开铸,李俊杰,吴岩,无词典自动分词的研究,计算语言学进展与应用,
    清华大学出版社,1995;
    [11] M. Taketa, Matsuo and J. Suda, Identification of nouns of scientific literature.
    Trans. Information Processing Society of Japan, 1995,page1828~1837;
    [12] 黄昌宁,中文信息处理的主流技术是什么?,2002.7
    http://www2.ccw.com.cn/02/0224/b/0224b25_1.asp;
    [13] 鲁松、白硕,自然语言处理中词语上下文有效范围的定量描述,计算机学报,
    2001,第7期;
    [14] Martin,W., Al, B. and Sterkenburg, P.. On the processing of text corpus, (In)
    Lexicography: Principles and Practice, edited by R. Hartmann,New York,1983;
    [15] Yarowsky, David.One sense per collocation.(In) Proceedings of ARPA Human
    Language technology workshop,Boston,1993,266-271.
    [16] Hughes, John.Automatically caquiring a classification of words.[PhD. Thesis].
    University of Leeds,Paris,1994.
    
    
    [17] Saracevic,T., "The concept of 'relevance' in information science; a historical
    review". 1970, In T. Saracevic ed. Introduction to Information Science. New
    York: R. R. Bowker, page111~151;
    [18] Stefano Mizzaro,How many Relevances in Information Retrieval?,nteracting
    with Computers 10,998,age30~322;
    [19] 于琨,糜仲春,可应用于互联网的自学习中文关键词抽取算法,中国科学
    技术大学学报,2002.6,第32卷,3期,page381~384;
    [20] 王家钺,信息检索中“相关性”概念的研究,
    http://www.in2in.com/jywang/publ/mfl0102.htm;
    [21] Chou Y-IM, Accessing Chinese Resources on the Internet, Internet & Higher
    Education, Vol.12, No.3, 1995, page.171~87, Publisher: Ablex Publishing, USA.
    [22] 刁倩,王永成,VSM中词权重信息熵算法,情报学报,2000.8,第19卷,
    4期,page354~358;
    [23] 郑庆华,张炜,超文本全文检索系统的实现和研究,西安交通大学学报,
    2001.4,第35卷,4期,page377~381;
    [24] 韩客松,王永成,一种用于主题提取非线性加权方法,情报学报,2000,
    第19卷,6期,page650~653;
    [25] 杨建林,信息检索的逻辑模型,情报学报,2000.8,第19卷,4期,
    page338~341;
    [26] 郑庆华,由渊霞,超文本结构转换算法的研究与实现,软件学报,第12卷,
    第2期,page167~172;
    [27] 曹素丽,曾伏虎,基于汉字字频向量的中文文本自动分类系统,山西大学
    学报(自然科学版),1999,22(2),page144~149;
    [28] 贾自艳,中文智能搜索引擎核心技术研究,北京工业大学工学硕士学位论
    文,2001.7;
    [29] 薛翠芳,郭炳炎,汉语文本特征词的自动抽取方法,情报学报,2000.6, 第
    19卷,3期,page242~247;
    [25] 林尧瑞,马少平,人工智能导论,清华大学出版社,1989.5;
    [26] 陈桂林,王永成,字串去重的快速算法研究,情报学报,2000.6, 第19卷,
    3期,page254~258;
    [30] 韩客松,王永成,中文全文标引的主题词标引和主题概念标引,情报学报,
    2001.4, 第20卷,2期,page212~216;
    [30] 杨建林,信息检索的逻辑模型,情报学报,2000.8, 第19卷,4期,
    page338~341;
    [32] Jian Zhang, anfeng Gao, Ming Zhou, Extraction of Chinese Compound Words
    An Experimental Study on a Very Corpus,001;
    
    
    http://research.microsoft.com/asia/dload_files/g-nlps/NLPSP/talip01-4th.pdf;
    [33] ShaoMing Zhang, Heather Powell, Dominic Palmer-Brow, Keyword Extraction
    using Neural Networks,
    [34] Peter D. Turney, Learning Algorithms for Keyphrase Extraction, 1999.4;
    [35] 陶跃华,孙茂松,因特网搜索引擎评价系统,计算机工程与科学,2001,
    第23卷,3期,page25~27;
    [36] Ellen Riloff, Automatically Constructing a Dictionary for Information Extraction
    Tasks, Proceeding of the 11th National conference on Artificial Intelligence,
    1993, AAAI Press/MIT Press, page811~816;
    [37] Christian Lindig, Concept-Based Component Retrieval,
    http://www.cs.tu-bs.de/softech/papers/ijcai-lindig.html;
    [38] Arnulfo P. Azcarraga,Teddy N. Yap Jr., Comparing Keyword Extraction
    Techniques with Websome TextArchives,2002;
    [39] Jian Zhang,Jianfeng Gao,Ming Zhou,Jianfeng Wang ,Improving the
    Effectiveness of Information Retrieval with Clustering and Fusion,2001,
    http://research.microsoft.com/~jfgao/paper/clclp01-2.pdf;
    [40] Fumiyo Fukumoto,Yoshimi Suzuki,Jun'ichi Fukumoto,A automatic extraction
    of key paragraph based on content Dependency,
    http://acl.ldc.upenn.edu/A/A97/A97-1043.pdf;
    [41] Timothy C. Craven,HTML Tags as Extraction Cues for Web Page Description
    Construction,Information Science Journal,Volume 6,2003;
    [42] Jianfeng Gao,An Empirical Study of CLIR at MSRCN,2001,
    http://research.microsoft.com/asia/dload_files/g-nlps/NLPSP/clirsjtu-4th.pdf;
    [43] Jianfeng Gao,Joshua T. Goodman,Mingjing Li,Kai-Fu Lee,Toward a Unified
    Approach to Statistical Language Language Modeling for Chinese,2001,
    http://research.microsoft.com/asia/dload_files/g-nlps/NLPSP/talip01-4th.pdf;
    [44] 张俐,李星,中文网页自动分类系统新算法,清华大学学报(自然科学版),
    2000,第40卷,第1期,page39~42;
    [45] B.A.Mathis and J.E.Rush.Abstracting.Encyclopedia of Computer and
    Tehcnology, Vol.1, New York,Marcel Dekker Inc.,1975, page 102~142.
    [46] 杨文峰,李星,基于Pat tree的统计语言模型与关键词的自动提取,计算机
    工程与应用,2001(15)page17~19;
    [47] 李蕾,基于自然语言处理的网络智能业务关键技术研究,北京邮电大学博
    士论文,2000.3;
    [48] 詹卫东,80年代以来汉语信息处理研究述评,
    http://www.hackchi.com/hnc/papers/compulin/zwdchinfo.htm;
    
    
    [49] 邓汉城,王敏芳,查准率与查全率之间关系的理论研究,情报学报,2000.8,
    第19卷,4期,page359~362;
    [50] 何新贵、彭甫阳,中文文本的关键词自动抽取和模糊分类,中文信息学报,
    1998.5,第13卷,1期,page7~15;

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700