用户名: 密码: 验证码:
现代汉语通用分词系统的技术与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在歧义切分技术中,提出了一种切分规则库与基于歧义知识库动态校正相结合的实用歧义处理策略;在专名识别技术中,本文提出了一种专名(包括译名在内的人名、地名、企业字号、企业名和机构名等)一体化、快速识别方法。从大规模真实语料的测试结果来看,歧义切分处理的精度、专名识别的正确率和召回率均达到了较高的水平。
     其次,本文概要的分析了通用型分词系统的难点,阐述了GPWS的解决方案,给出了通用分词系统的评价标准;并提出了交互式分词系统的概念,给出了一种简单的交互式方法。取得了良好的效果。
Word segmentation is the basis of Chinese information processing (NLP). Any natural language processing system beyond character level should have a built-in word segmentation block. Disambiguity and recognition of unknown words are most important points for design of word segmentation systems. In this paper, firstly, we introduce an applied strategy to disambiguity. Then we put forward an integrated and fast recognition strategy of proper noun, including Chinese person names, Chinese place names, translated foreign names and corporation & organization names, in modern Chinese word segmentation system, which successfully resolves the conflict among these proper nouns and ordinary words. Large-scale test on real corpus show that both of these strategies have got high performance and precision in disambiguity and recognition of proper nouns. In last part of this paper, we introduce the General-purpose Word Segmentation System in Modern Chinese (GPWS) and analyse the set of criteria for the evaluating a general-purpose segmentation system in terms of its comprehensiveness, extensibility and adaptiveness, and interactiveness besides precision. We also introduce an interactive strategy to provide alternative solutions and giving applications more choices without compromise. Large-scale tests on real corpus show that interaction, between word segmentation and upper applications, has made much contribution to the reduction of error in the original system.
引文
A.歧义切分
    1.侯敏等,汉语自动分词中的歧义问题,计算语言学进展与应用,1995年,81-87
    2.孙茂松等,汉语真实文本中交集型切分歧义,汉语计量与计算研究,香港城市大学语言资讯科学研究中心,1998年
    3.孙茂松等,利用汉字二元语法关系解决汉语自动分词中交集型歧义,计算机研究与发展,第34卷第5期,1997年5月
    4.Andi Wu et al, Word Segmentation In Sentence Analysis,1998中文信息处理国际会议论文集,清华大学出版社,1998年
    5.刘挺等,歧义字段的最大概率切分算法,语言工程,清华大学出版社,1997年
    6.郑家恒等,中文文本歧义切分技术研究,语言工程,清华大学出版社,1997年
    B.专名识别
    7.李卫亮,现代汉语分词系统中专名识别的实用策略,北京工业大学硕士学位论文,2000年6月
    8.宋柔,基于语料库和规则库的人名识别方法,计算语言学研究与应用,北京语言学院出版社,1993年
    9.孙茂松等,英语姓名译名的自动辨识,计算语言学研究与应用,北京语言学院出版社,1993年
    10.赵铁军等,提高汉语自动分词精度的多步处理策略,中文信息学报,2001年第1期
    11.谭红叶等,中国地名的自动识别方法研究,计算语言学文集,清华大学出版社,1999
    12.郑家恒等,基于语料库的中文姓名识别方法研究,中文信息学报,2000年第1期
    13.刘秉伟等,基于统计方法的中文姓名识别,中文信息学报,2000年第3期
    14.陈小荷,自动分词中未登录词问题的一揽子解决方案,语言文字应用,1999年第3期
    15.孙茂松等,中文姓名的自动辨识,中文信息学报,1994年第2期
    16.沈达阳等,中国地名的自动辨识,计算语言学进展与应用,清华大学出版社,1995
    17.张小衡等,中文机构名称的识别与分析,中文信息学报,1997年第4期
    18.吕雅娟等,基于分解与动态规划策略的汉语未登录词识别,中文信息学报,2001年第1期
    19.罗智勇等,现代汉语自动分词中专名的一体化、快速识别方法,ICCC Singapore,2001.11
    C.分词系统设计
    20.何克抗等,书面汉语自动分词专家系统设计原理,中文信息学报,1991年第2期
    
    
    21.娄珽,现代汉语分词系统通用性设计及切分歧义处理,北京工业大学硕士学位论文,2000年6月
    22.娄珽等,现代汉语分词系统通用接口设计与实现,中文信息学报,2001年第5期
    23.赵铁军等,提高汉语自动分词精度的多步处理策略,中文信息学报,2001年第1期
    24.刘开瑛著,中文文本自动分词和标注,商务印书馆,2000年
    25.宋柔,分词——汉语信息处理的基础工程,计算机世界,1997年48期
    26.宋柔,关于分词规范的探讨,语言文字应用,1997年第3期
    27.冯志伟,自然语言的计算机处理,上海外语教育出版社,1994年
    28.Sproat et al, A stochastic finite-state word-segmentation algorithm for Chinese, Computational Linguistics, 22(3), 377-404
    29.Dekai Wu et al, Improving Chinese tokenization with linguistic filters on statistical lexical acquisition, In Proceedings of the Fourth ACL Conference on Applied National Language Processing(ANLP94), Stuttgart, Germany
    D.其它
    30.吕映芝等,编译原理,清华大学出版社,1998年
    31.严蔚敏等,数据结构,清华大学出版社,1992年

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700