CRFs字角色标注方法在中文附加关键词抽取中的应用研究

设为首页

收藏本站

网站地图 | English | 公务邮箱

远程访问

NSTL服务站

CRFs字角色标注方法在中文附加关键词抽取中的应用研究

详细信息查看全文 | 推荐本文 |

英文篇名：Application of CRFs Chinese Character Role Labeling Method in Chinese Keywords Plus Extraction
作者：张海潮 ; 王昊 ; 唐慧慧 ; 薛蔚
英文作者：Zhang Haichao;
关键词：附加关键词 ; 条件随机场 ; 关键词抽取 ; 题名关键词 ; 机器学习
英文关键词：plus;;conditional random field;;keyword extraction;;title keyword;;machine learning
中文刊名：QBLL
英文刊名：Information Studies:Theory & Application
机构：南京大学信息管理学院;江苏省数据工程与知识服务重点实验室;
出版日期：2018-09-21 14:34
出版单位：情报理论与实践
年：2019
期：v.42;No.301
基金：国家自然科学基金青年项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号:71503121)的成果;; “江苏青年社科英才”和南京大学“仲英青年学者”计划的资助
语种：中文;
页：QBLL201902028
页数：8
CN：02
ISSN：11-1762/G3
分类号：173-180

摘要

[目的/意义]探讨中文社会科学领域题名关键词最佳抽取模型,用以获取引文题名关键词,完成附加关键词的抽取。[方法/过程]文章以2014年CSSCI全部文献的题名为语料,运用条件随机场(CRFs),通过探究不同特征(或集合)和参数对关键词识别的影响,构建字角色标注的题名关键词标引模型,最终迁移应用到引文题名。[结果/结论]通过实验,获得最佳题名关键词标引模型,F1值可达到52.03%,每篇原文可获得附加关键词9个左右。在恰当的特征组合与参数下,构建的标引模型可以有效完成附加关键词的获取工作。[局限]语料中的每个关键词平均出现两次可能会影响机器学习的效果,原文与引文题名的差异可能影响模型的适用性,此外模型得到的附加关键词尚需进一步斟酌选择。
[Purpose/significance]This paper explores the best extraction model for title keywords in the Chinese social science field,and obtains the citation title keywords to complete the keywords plus extraction.[Method/process]Taking the titles of all CSSCI papers in 2014 as the corpus,this paper builds a keywords labeling model of titles based on each character's role by exploring the influence of different features or sets and parameters on the recognition of Keywords.Finally,it is applied to titles of citations.[Result/conclusion]The best model of the title keyword labeling is obtained,and the F1 value can reach 52.03%.Each original paper can get about 9 keywords plus.Under the proper features combination and parameters,the title keywords labeling model can effectively accomplish the acquisition of keywords plus.[Limitations]In the corpus,it may affect the machine learning effect if a keyword appears two times in average,the difference between the original paper and citation title may affect the applicability of the model,and the selection of keywords plus obtained by the model is still to be considered.

引文

[1]http://apps.webofknowledge.com.
    [2]http://wokinfo.com/media/pdf/qrc/Wo Sqrc.
    [3]刘宇,卫军朝,杨柳.国外期刊评价的知识图谱研究---基于Web of Science数据库(1940-2015年)的计量分析[J].大学图书馆学报,2016,34(1):35-46.
    [4]袁留亮.《图书情报工作》国际影响力研究---基于Wo S~(TM)核心合集平台[J].图书情报工作,2015,59(S2):153-156,161.
    [5]卢小宾,高欢.基于Web of Science的档案学研究热点分析[J].档案学通讯,2015(3):35-38.
    [6]GB 7713-1987科学技术报告、学位论文和学术论文的编写格式[EB/OL].https://wenku.baidu.com/view/b4a1da19a 300a6c30c229fca.html.
    [7]张超星,谭宗颖,朱相丽,万昊.Web of science中关键词的利用方式对情报分析结果的影响及选择建议---基于超临界二氧化碳技术领域的实证分析[J].情报科学,2017,35(6):73-79.
    [8]吕鹏辉,邵建芳,杨善林.基于机标关键词的学科语义知识网络构建研究[J].图书情报知识,2017(2):120-128.
    [9]GARFIELD E.Keywords Plus:ISI’s breakthrough retrieval method,partⅠ.expanding your searching power on current contents on diskette[J].Current Confents,1990(32):5-9.
    [10]储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993(3):218-229.
    [11]马然,侯汉清.基于引文的自动标引法初探[J].新世纪图书馆,2002(1):13-15.
    [12]LUHN H P.A statistical approach to mechanized encoding and searching of literary information[M].IBM Corp,1957.
    [13]王宁,葛瑞芳,苑春法,等.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6.
    [14]PISKORSKI J.Rule-based named-entity recognition for polish[J].Proceedings of the Workshop on Named,2004.
    [15]丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14,33.
    [16]邬伦,刘磊,李浩然,等.基于条件随机场的中文地名识别方法[J].武汉大学学报:信息科学版,2017,42(2):150-156.
    [17]陈白雪,宋培彦.基于用户自然标注的TF-IDF辅助标引算法及实证研究[J].图书情报工作,2018,62(1):132-139.
    [18]梁吉光,田俊华,姜杰.基于改进HMM的文本信息抽取模型[J].计算机工程,2011,37(20):178-179,182.
    [19]SALTON G,BUCKLEY C.Term-weighting approaches in automatic text retrieval[J].Information Processing&Management,1988,24(5):513-523.
    [20]MIHALCEA R,TARAU P.TextRank:Bringing order into texts[J].Emnlp,2004:404-411.
    [21]WITTEN I H,PAYNTER G W,FRANK E,et al.KEA:practical automatic keyphrase extraction[C].Acm Conference on Digital Libraries,1999:254-255.
    [22]方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015(4):114-116,120.
    [23]李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004(9):1192-1197.
    [24]ZHANG K,XU H,TANG J,et al.Keyword extraction using support vector machine[M]//Advances in Web-Age Information Management.Springer Berlin Heidelberg,2006:85-96.
    [25]邓三鸿,王昊,秦嘉杭,苏新宁.基于字角色标注的中文书目关键词标引研究[J].中国图书馆学报,2012,38(2):38-49.
    [26]SONG D,LIU W,ZHOU T,et al.Efficient robust conditional random fields[J].IEEE Transactions on Image Processing APublication of the IEEE Signal Processing Society,2015,24(10):3124.
    [27]王昊,邓三鸿.HMM和CRFs在信息抽取应用中的比较研究[J].现代图书情报技术,2007(12):57-63.
    [28]邓箴,包宏.基于条件随机场的中文自动文摘系统[J].西安石油大学学报:自然科学版,2009,24(1):96-99,102,114.
    [29]王密平,王昊,邓三鸿,等.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016,32(6):28-36.
    [30]黄高辉,姚天昉,刘全升.基于CRF算法的汉语比较句识别和关系抽取[J].计算机应用研究,2010,27(6):2061-2064.
    [31]董永权,李庆忠,丁艳辉,彭朝晖.基于约束条件随机场的Web数据语义标注[J].计算机研究与发展,2012,49(2):361-371.
    [32]王昊,邓三鸿,苏新宁.基于字序列标注的中文关键词抽取研究[J].现代图书情报技术,2011(12):39-45.
    [33]中文社会科学研究评价中心[EB/OL].[2018-05-15].http://cssci.nju.edu.cn.
    [34]张少阳,王裴岩,蔡东风.一种基于字的多模型中文分词方法[J].沈阳航空航天大学学报,2017,34(1):70-75.
    [35]马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003(6):874-878.
    [36]XUE N,CONVERSE S P.Combining classifiers for Chinese word segmentation[J].First Sighan Workshop Attached with Coling,2002(3):57-63.
    [37]来斯惟,徐立恒,陈玉博,刘康,赵军.基于表示学习的中文分词算法探索[J].中文信息学报,2013,27(5):8-14.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700