用户名: 密码: 验证码:
一种中小学汉语作文表现手法分类方法
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:A CLASSFICATION METHOD OF THE EXPRESSION TECHNIQUES IN CHINESE COMPOSITION OF PRIMARY AND MIDDLE SCHOOLS
  • 作者:马晓丽 ; 刘杰 ; 周建设 ; 骆力明 ; 史金生
  • 英文作者:Ma Xiaoli;Liu Jie;Zhou Jianshe;Luo Liming;Shi Jinsheng;School of Information Engineering,Capital Normal University;Beijing Advanced Innovation Center for Imaging Technology,Capital Normal University;
  • 关键词:表现手法分类 ; TF×IWF×IWF ; 方差 ; Word2vec ; 加权
  • 英文关键词:Expression techniques categorization;;TF × IWF × IWF;;Variance;;Word2vec;;Weight
  • 中文刊名:JYRJ
  • 英文刊名:Computer Applications and Software
  • 机构:首都师范大学信息工程学院;首都师范大学北京成像技术高精尖中心;
  • 出版日期:2018-10-12
  • 出版单位:计算机应用与软件
  • 年:2018
  • 期:v.35
  • 基金:国家自然科学基金项目(61371194,61672361);; 北京市自然科学基金项目(4152012);; 北京成像技术高精尖创新中心项目支持(BAICIT-2016004)
  • 语种:中文;
  • 页:JYRJ201810010
  • 页数:6
  • CN:10
  • ISSN:31-1260/TP
  • 分类号:55-60
摘要
为提升中小学汉语作文中存在的表现手法分类性能,选取引入方差的TF×IWF×IWF算法对其进行特征选择。其优势在于引入方差可以表征特征词汇在各类别之间的分布均匀程度,从而进一步确定特征词的重要性。鉴于使用引入方差的TF×IWF×IWF算法形成的文本特征向量太稀疏,因此采用Word2vec模型对词汇进行特征扩展。由于单独使用Word2vec模型难以体现文本中词汇的重要程度,继而使用上述权重计算算法对词向量进行加权。提出合并以上两种方法来表征表现手法文本特征,并利用SVM分类器对表现手法文本进行分类。实验结果表明,两种方法的结合使分类精确率平均提高3%。
        To raise the classification efficiency about the features of expression techniques existing in Chinese composition of primary and middle schools,the TF × IWF × IWF algorithm which introduced the variance is utilized to select features. This algorithm indicates strong ability in representing distribution uniformity of feature words among categories by introducing variance,which further determines the importance of feature words. The Word2 vec model was used to extend the vocabulary features because of the spare characteristic vectors formed by variance-introduced TF ×IWF × IWF algorithm. Since the importance of the words in texts could not be distinguished by using the Word2 vec model independently,the word vectors were weighted by the above weighting algorithm. Merging both methods was proposed to represent the features of the expression techniques,and support vector machine( SVM) classifier was used to classify. The experimental results verify that the accuracy in classification is increased by 3% on average.
引文
[1]杨涛.面向海量文本的分类算法研究[D].济南:齐鲁工业大学,2016.
    [2]施聪莺,徐朝军,杨晓江. TFIDF算法研究综述[J].计算机应用,2009,29(S1):167-170.
    [3]冶忠林,杨燕,贾真,等.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792-796.
    [4]范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012,28(3):47-52.
    [5]翟延冬,王康平,张东娜,等.一种基于WordN et的短文本语义相似性算法[J].电子学报,2012,40(3):617-620.
    [6]吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127.
    [7] Lilleberg J,Zhu Y,Zhang Y. Support vector machines and Word2vec for text classification with semantic features[C]//IEEE,International Conference on Cognitive Informatics&Cognitive Computing. IEEE,2015:136-140.
    [8]张谦,高章敏,刘嘉勇.基于Word2vec的微博短文本分类研究[J].信息网络安全,2017(1):57-62.
    [9]孙玉强,巢碧霞.基于双重并行计算模型的TFIDF算法[J].计算机工程与设计,2016,37(11):3016-3021.
    [10]王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796.
    [11]谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005,21(5):46-49.
    [12]杨春明,韩永国.快速的领域文本关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145.
    [13]陈克利,宗成庆,王霞.基于大规模真实文本的平衡语料分析与文本分类方法[C]//全国计算语言学联合学术会议. 2003.
    [14]奉国和. SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124.
    [15]靖慧,杨振宇,于敏.基于改进的TFIDF和压缩自动编码器文本分类研究[J].齐鲁工业大学学报(自然科学版),2017,31(3):61-66.
    [16]张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78.
    [17]李锐,张谦,刘嘉勇.基于加权word2vec的微博情感分析[J].通信技术,2017,50(3):502-506.
    [18]张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016,32(12):27-35.
    [19] Yang Y,Liu X. A Re-examination of Text Categorization Methods[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,2003:42-49.
    [20]褚晓芳.小学个性化作文教学探索[D].南京:南京师范大学,2008.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700