用户名: 密码: 验证码:
文本标注平台的设计原理与应用研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
中国的语言在大型数据库建设方面主要集中于语音和词汇,而文本语法研究进展缓慢,导致这种情况主要有三方面的因素。首先,学术观念的约束,忽视了文本型的语言资源;其次,研究方法的制约,阻碍了文本标注语法研究的发展;最后,研究人员的缺少,中国民族语言众多而研究队伍成员不多。现如今越来越多的语言学家意识到真实文本语料的重要性,文本标注的语法研究也逐步取得了一些成绩,但当前用于语法标注与分析的文本处理方法和加工工具存在复杂繁琐问题,对于中国语言而言普适性不够好,尤其是处理有声调的语言,因此,通过计算机技术支持重新设计与开发一个用于文本处理实现语法标注的研究平台非常有必要且极其迫切的。
     本文主要目标就是想实现一个更适合中国语言文本标注的语法研究平台,具有实用性和高效性,语言学家可以高效、准确地完成生语料到熟语料的标注处理,建立语言学界一直都期盼的高效能隔行对照化格式的语言资源。本文重点论述了两个方面,一方面,改善语料资源来源的途径,丰富文本资源,扩大研究者自建的语料库;另一方面,改进文本资源加工的方法,完善文本处理,准确高效地完成语法标注。本研究基础技术由三个部分组成,输入技术、文本处理技术和输出技术。这三个部分的设计原理和解决策略构建起来也就是本平台的整体框架,为研究者提供一个更适合中国语言使用的语法研究平台,用于语法分析与文本标注。全文共分为八章:
     第一章:由语言资源与语法标注现状分析进而说明本研究的必要性与重要性。
     第二章:介绍文本标注平台的整体框架,以及本文主要技术方法的设计原理。
     第三章:通过本文提供的输入技术可以获取多种文本资源的来源方式,以及提出的语音快速录入形成文本的新途径。
     第四章:词典贯穿于整个研究平台,词典的重要性和词典设置,重点介绍了文本与词典的互动技术,隔行对照化、跳转插词和词典编辑的实现方法。
     第五章:句法分析,面对多种语言本文提出了改进的匹配算法提高了文本分词和匹配标注的效率性和准确性,重点阐述了文本分词的重要性和实现策略。
     第六章:形态分析,面对多种语言本文实现了屈折、粘着、变调、重叠和多义的语音语法语义现象的文本标注,提供了合理可行的解决方法。
     第七章:提供了多种资源成果的输出方式,包括语料、例句、勘拷灯、词典、词表等。可排版的隔行对照化格式,可筛选的检索结果输出,实用性非常强。
     第八章:总结了本文的创新之处,并对下一阶段的工作提出展望。
     本研究介绍了合理可行的文本资源来源方法,高效实用的语法标注处理方法,多样可排版的资源成果输出方法。本文采用词典策略、文本分词、隔行对照化、匹配标注、形态处理、深层和表层形式、词规则等技术方法完成了大量文本资源的语法标注。改善了中国语言资源挖掘与研究的方法,促进了少数民族语言和汉语方言真实文本资源语法标注的发展,同时对濒危性语言和非物质文化遗产有着极为重要的保护与保留作用。
The building of large databases of Chinese languages has developed rapidly in terms of phonetics and vocabulary, while that of syntax has developed slowly, which can be explained as follows. Firstly, the text-based language resources are ignored due to constraints by academic concepts. Secondly, the development of the study of text annotation syntax has been restricted by research methods. Finally, there are not enough researchers while there are a great number of minority languages in China. Nowadays more and more linguists have become aware of the importance of the study of text resources, and there have been some achievements in the study of syntax with text annotation. But there are some problems with the methods which are used to annotate and analyze syntax, which are not good enough for languages in China, especially in handling tone languages. Therefore, it is very necessary to design and develop a research platform used to process texts, thus realizing syntax annotation, supported by computer technology.
     The main objective of this study is to design a syntax research platform which is suitable for text annotation of Chinese languages, with practicality and efficiency, and linguists can complete annotating languages from raw materials to annotated materials efficiently and accurately, thus establishing corpus with high efficiency.
     This paper focuses on the two aspects, on the one hand, to expand the corpus made by researchers themselves by way of improving the sources of data; On the other hand, to complete syntax annotation accurately and efficiently by way of improving text resources processing methods. The basic technology consists of three components:input technology, text processing technology, and output technology The design principles and strategy of these three parts of is the overall framework of the platform, providing the researchers with a syntax study platform which is more appropriate for Chinese languages and used for grammar parsing and text annotation. The thesis is divided into eight chapters:
     Chapter One:To analyze the current situation of language resources and syntax annotation, therefore to prove the necessity and importance of the study;
     Chapter Two:To introduce the overall framework of text annotation platform and the design principles of main technical methods in this paper;
     Chapter Three:To get a variety of text resources by way of input technology provided in this paper, and to introduce new ways of forming new texts by way of quick entry;
     Chapter Four:To introduce the importance of dictionaries in the research platform, and the interactive technology of text and dictionaries, interlaced control, jump-insert method and the dictionary editing.
     Chapter Five:Syntactic analysis:matching algorithm used in multilingual text improves the efficiency and accuracy of text segmentation and matching annotation. Also, this chapter introduces the importance of text word segmentation and implementation strategies.
     Chapter Six:Morphological analysis:to introduce feasible solutions of text annotation of phonetic, syntactic and semantic phenomenon:inflection, adhesion, tone, overlapping and polysemy.
     Chapter Seven:To offer the ways of outputting a variety of resources outcome, including the corpus, example sentences, collate copy lights, dictionaries, thesaurus, etc.
     Chapter Eight:To summarize the main conclusions and innovation of this paper, and introduce the work that will be done.
     This study describes the sources of text resources, the methods of syntax annotation and output technologies of diverse resources results. In this paper, syntax annotation of a large number of text resources is completed by way of dictionary strategies, text segmentation, interlacing control, match tagging, morphological processing, technical methods of deep and surface form, and the word grammar rules. This study improves the methods of researching Chinese language resources, promote the development of syntax study of minority languages and Chinese dialects, and especially, protect the endangered languages and non-material culture.
引文
3 参考江荻教授主持的国家社科基金重大课题“基于大型词汇语音数据库的汉藏历史比较语言学研究”课题资料。
    4 语言资源依赖型学科概念是江荻教授在“中国语言资源挖掘新领域和新方法”报告中提出来的(教育部首届中国语言生活国际学术研讨会,中国人民大学,2010年10月16日-10月17日)。特指占据多样性语言资源的语言类型学等学科研究。
    5 2001年世界少数民族语文研究院和中国社科院民族所联合举办计算机词典编纂研讨会及Shoebox词典培训,利用计算机技术推进少数民族语言词典编撰,提高词典制作水平。2005年江荻教授编译Toolbox培训手册,在云南民族大学、中央民族大学等高校授课推广使用。2009年开始,该专题连续获得中国社科院计算语言学重点实验室、中国社科院重大课题和国家社科基金重大课题资助,目前已完成约20种少数民族语言语法标注文本专著,开创了国内语言研究的新方向。
    6 藏语拉萨话语法标注文本(江荻);藏语安多话语法标注文本(龙从军);彝语凉山话语法标注文本(燕海雄,马辉);壮语武鸣话语法标注文本(蓝利国);土家语语法标注文本(徐世璇,鲁美艳);拉坞戎语语法标注文本(尹蔚彬);白语语法标注文本(王锋):纳西语语法标注文本(钟耀萍);水语语法标注文本(韦学纯);黎语语法标注文本(潘立慧,张强);哈尼语语法标注文本(白碧波,许鲜明);德昂语语法标注文本(尹巧云,刘岩)。
    7 参考江荻教授主持的国家社科基金重大课题“基于大型词汇语音数据库的汉藏历史比较语言学研究”课题资料。
    8 中国民族语言语法标注文本丛书课题组的老师们及多年使用Toolbox语法标注软件和Elan转录软件的研究者们的感受——繁琐,尤其是Toolbox软件,提供的某些解决方法对于使用者而言是没有办法的办法。在第三章到第七章的内容介绍中本文将阐述Toolbox和Elan存在的不足。
    9 中国民族语言语法标注文本丛书课题组提供的资料,以及他们针对此问题采取的处理方法。
    10 鉴于Toolbox系统已经建立较为完善的代码体系,本文基本按照这套体系叙述。
    11 斐风是由上海师范大学E语言研究所硕士生韩夏开发的少数民族语言田野调查软件。
    12 参考江荻教授主持的国家社科基金重大课题“基于大型词汇语音数据库的汉藏历史比较语言学研究”课题资料。
    13 长篇语料,《哥哥和弟弟》。
    14 黄成龙教授认为:约定规则三,一对多对应——一般分析性语言都是一对一,即一个词一个意义;但曲折形态丰富的语言就存在一个语法成份包含几个语法意义,在这种情况下有的人用“+”号来连接两个意义,我们倾向于用冒号“:”把两个意义隔开。本研究平台对于这个约定规则稍做了改变,采用“;”间隔,而且只标注该词在上下文的语义,不是全部语义都列出。计算机读到;符号就会按照组合关系搭配出来所有的选项,之后再将任务交给研究者区分应该标注哪个语义。
    15 长篇语料,《哥哥和弟弟》。
    16 长篇语料,《吝啬的经师》。
    17 长篇语料,《嘲弄者终为天下笑》,王海波提供。
    18 长篇语料,《吝啬的经师》。
    19 长篇语料《嘲弄者终为天下笑》,王海波提供。
    20 长篇语料,《吝啬的经师》。
    21 长篇语料,《吝啬的经师》。
    22 江荻教授提供的藏语实例。
    23 燕海雄提供的彝语实例。
    24 燕海雄提供的彝语实例。
    25 燕海雄提供了大量相关的实例。
    26 长篇语料,《哥哥和弟弟》。
    27 来自Toolbox的实例。
    28 来自Toolbox设计的虚拟语言,应用到本研究能够得到一样的处理结果。
    29 上海师大语言研究所博士研究生康才畯于2012年研发的排版工具。
    30 上世纪九十年代,江荻教授开展了这方面的研究。(1999):语篇索引技术在藏文文本中的应用,黄昌宁,董振东主编:《计算语言学文集》,第359-364页。北京:清华大学出版社。
    [1]http://www-01.sil.org/computing/toolbox/
    [2]江荻Toolbox学习讲义.曾在云南民族大学,中央民族大学,中国社科院讲座教学.2006-2010
    [3]中国民族语言语法标注文本丛书课题组.中国民族语言语法标注文本丛书课题语法标注集
    [4]Van Valin, Robert D., Jr. & Randy LaPolla. Syntax:Structure, meaning and function. Cambridge:Cambridge University Press.1997.
    [5]T. Schmidt. Visualising Linguistic Annotation as Interlinear Text. Working papers in multilingualism. Series B. Hamburg:Univ. Hamburg.2003.
    [6]刘丹青.语法调查研究手册[M].上海教育出版社2008
    [7]孙宏开主编.中国的语言[M].商务印书馆2007
    [8]孙宏开主编.中国少数民族语言方言研究丛书[M].民族出版社2004
    [9]孙宏开主编.中国少数民族语言简志丛书[M].民族出版社2009
    [10]孙宏开主编.中国少数民族语言系列词典丛书[M].民族出版社2005
    [11]L Versaw, GF Simons. How to use ITE:a guide to interlinear text processing. ethnologue.com. 1987
    [12]黄成龙.语法描写框架及术语的标记[J].民族语文.2005(03)
    [13]C. Hellmuth, T. Myers & A. Nakhimovsky. The Linguist's Toolbox and XMLTechnologies. Paper presented at the E-MELD meeting 2006.
    [14]李斌.用ELAN自建汉语方言多媒体语料库及其应用研究[D].湖南师范大学2013
    [15]Tikaram Poudel. Rajbanshi Grammar and Interlinearized Text. LINCOM EUROPA,2006.
    [16]Randy J. LaPolla & Dory Poa. Rawang Texts. Published by Lincom Europa.2001.
    [17]Elan manual. http://www.mpi.nl/corpus/manu-als/manual-elan.pdf.2012
    [18]Hennie Brugman,Albert Russel.Annotating Multi-media/Multi-modal resources with ELAN 2004. http://www.lat-mpi.eu/papers/papers-2004
    [19]http://blog.sina.com.cn/s/blog_4d6d22cf0100090h.html
    [20]Bill Evjen. XML高级编程[M].清华大学出版社2009
    [21]吴敏.基于XML的数据交换技术研究[J].科技创新导报.2009(06)
    [22]张晓林.基于XML的信息组织与处理:1.应用技术[J].情报科学.2001(08)
    [23]张晓林.基于XML的信息组织与处理:2.应用技术[J].情报科学.2001(09)
    [24]陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学.2003(04)
    [25]陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用.2008(10)
    [26]翟凤文.统计与字典相结合的中文分词[D].吉林大学2005
    [27]刘春辉.基于优化最大匹配的中文分词方法研究[D].燕山大学2009
    [28]王东,陈笑蓉.一种改进的高效分词词典机制[J].贵州大学学报(自然科学版).2007(04)
    [29]陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法.计算机研究与发展[J].2000(04)
    [30]吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学.2008(08)
    [31]殷珍珍.基于正则表达式的多模式匹配算法研究[D].杭州电子科技大学2012
    [32]严蔚敏.数据结构[M].清华大学出版社2007
    [33]郭秀娟.基于关联规则数据挖掘算法的研究[D].吉林大学2004
    [34]侯伟,杨炳儒,宋威.多关系关联规则算法综述[J].计算机工程与应用.2007(23)
    [35]王俊杰,向桂林.XML结构索引技术[J].图书情报工作.2004(05)
    [36]字符集和字符编码[OL]. http://www.cnblogs.com/skynet/archive/2011/05/03/ 2035105. html
    [37]崔刚,盛永梅.语料库中语料的标注[J].清华大学学报(哲学社会科学版).2000(01)
    [38]刘建鹏,杨炳钧.基于语料库的系统功能语法研究之词汇倾向性探讨[J].现代外语.2011(04)
    [39]Sebastian Drude. Advanced Glossing -- a language documentation format and its implementation with Shoebox. http://www.mpi.nl/DOBES/applicants/Advanced-Glossing1.pdf
    [40]Stefanie Dipper, Michael Gotze, Stavros Skopeteas. Information Structure in Cross-Linguistic Corpora:Annotation Guidelines for Ph onology, Morphology, Syntax, Semantics, and Information Structure. University of Potsdam,2007
    [41]Jiang Di, etc. The Verbal Entries and Their Description in a Grammatical Information-Dictionary of Contemporary Tibetan. Natural Language Processing-IJCNLP, 874-884. Springer 2005
    [42]江荻.藏语文本信息处理的历程与进展[A].中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C].2006
    [43]江荻.藏语不规则动词的信息标注方法[A].中国计算语言学研究前沿进展(2009-2011)[C].2011
    [44]Tikaram Poudel. Rajbanshi Grammar and Interlinearized Text. LINCOM EUROPA,2006
    [45]Cathy Bow. Towards a General Model of Interlinear Text Baden Hughes and Steven Bird Department of Computer Science and Software University of Melbourne, Victoria 3010, Australia
    [46]Cathy Bow, Baden Hughes and Steven Bird. Towards a General Model of Interlinear Text. Department of Computer Science and Software Engineering, University of Melbourne, Victoria 3010
    [47]任东升.“隔行对照翻译”三重解读[A].首届清华亚太地区翻译与跨文化论坛论文摘要集[C].2011
    [48]江荻.藏语语法词典的构建方法:词条与文本互动[J].中文信息处理前沿进展.2006
    [49]黄成龙.蒲溪羌语研究[M].民族出版社2006
    [50]朱德熙.语法答问[M].商务印书馆1985
    [51]江荻.藏语动词屈折现象的统计分析[J].民族语文.1992(04)
    [521向桂林,刘锦华.全文检索系统中动态索引技术的研究与实现[J].现代图书情报技术.2003(03)
    [53]陈玮,陈玉鹏,石晶,陆达.一种高效的全文检索索引技术[J].计算机应用研究.2004(07)
    [54]陈康,巫达.彝语语法(诺苏话)[M].中央民族大学出版社1998
    [55]石德富.卑南语中缀和后缀的语义[J].民族语文.2006(01)
    [56]杨俊芳.汉语方言形容词重叠研究[D].复旦大学2008
    [57]董为光.汉语重叠式概说[J].语言研究.2011(02)
    [58]戴庆厦.景颇语重叠式的特点及其原因[J].语言研究2000(1)
    [59]傅爱兰,李泽然.哈尼语的重叠式[J].语言研究.1996(01)
    [60]李晓琴.景颇语与独龙语词语重叠比较研究[J].青海师专学报.2008(03)
    [61]李如龙.论汉语方言的语流音变[J].厦门大学学报.2002(06)
    [62]陈忠敏.汉语方言连续变调研究综述[J].语文研究.1993(2)
    [63]蔡嵘.汉语方言连续变调的复杂度研究[D].南开大学2007
    [64]韦茂繁.关于语流音变几个问题的讨论[J].广西民族学院学报.1987(3):109-111
    [65]蔡培康.武鸣壮话的连续变调[J].民族语文.1987(1)
    [66]拉玛兹偓.试论彝语次高调产生的原因[J].民族语文.1991(05)
    [67]林耀群.自然语言的计算机处理过程中的歧义问题[J].华南师范大学学报(社会科学版).2000(03)
    [68]马希文.以计算语言学为背景看语法问题[J].国外语言学.1989(03)
    [69]L Versaw, GF Simons. How to use ITE:a guide to interlinear text processing, ethnologue.com. 1987
    [70]Scott Farrar. A UNIVERSAL DATA MODEL FOR LINGUISTIC ANNOTATION TOOLS.2006 E-MELD Workshop on Digital Language Documentation, Lansing, M1. June 20-22,2006
    [71]Stefanie Dipper, Michael G'otze, Stavros Skopeteas. Towards User-Adaptive Annotation Guidelines
    [72]Fei Xia, William D. Lewis. Repurposing Theoretical Linguistic Data for Tool Development and Search
    [73]吴敏.基于XML的数据交换技术研究[J].科技创新导报.2009(06)
    [74]孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报.2007(06)
    [75]胡晓鹏,李晓航,李岗.一种基于XML映射规则的数据迁移方法设计和实现[J].计算机应用.2005(08)
    [76]叶小平,陈铠原,汤庸,汤娜,胡苏.时态XML索引技术[J].计算机学报.2007(07)
    [77]黄昌宁,董振东.计算语言学文集[M].清华大学出版社:第359—364页
    [78]http://ccl.pku.edu.cn:8080/ccl_corpus/
    [79]刘丹青,唐正大.现代汉语方言语法语料库调查方案.拟定2003年7月
    [80]孙宏开.重视少数民族语言与文化的记录和保护[J].满语研究.2006(01)

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700