用户名: 密码: 验证码:
基于Python的网络语料获取和文本提取方法探索
详细信息    查看全文 | 推荐本文 |
  • 作者:赵振国
  • 关键词:语料库 ; 建库 ; Python语言 ; Requests ; Beautiful ; Soup
  • 中文刊名:JYXD
  • 英文刊名:Education Modernization
  • 机构:上海杉达学院;
  • 出版日期:2019-02-15
  • 出版单位:教育现代化
  • 年:2019
  • 期:v.6
  • 基金:上海杉达学院2017年度后续研究项目(2017hx04)的研究成果
  • 语种:中文;
  • 页:JYXD201914063
  • 页数:3
  • CN:14
  • ISSN:11-9354/G4
  • 分类号:192-194
摘要
语料库语言学,在一定程度上,随着计算机科学的发展而发展。Python语言因其语法简单、接近自然语言、拥有数以万计的第三方类库,近些年发展迅速,同时深受各领域学者喜爱。Python语言的第三方类库Requests通过几行代码就可获取网页文本信息,同时第三方库BeautifulSoup也仅需数行代码就可从海量文本信息中提取指定信息。使用Python构建语料库,可以明显提高语料库建库效率。本文结合实例,详述基于Python的快速获取语料和文本提取过程。
        
引文
[1]梁茂成,李文中&许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.
    [2]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.
    [3]邢富坤.Web语料库及其特征初探--与传统语料库的对比研究[J].外语电化教学,2006,(2):62-66.
    [4]许家金,吴良平.基于网络的第四代语料库分析工具CQPweb及应用实例[J].外语电化教学,2014,(5).
    [5]桂诗春,冯志伟,杨惠中,等.语料库语言学与中国外语教学[J].现代外语,2010,(4):419-426.
    [6]刘文飞,赵铭伟.面向人文社科类专业的Python教学案例实践[J].计算机教育,2017,(12):15-19.
    [7]韦永智,刘旭.Python中用正则表达式为英文文本分词的方法探究[J].科学导报,2015,(24).
    [8]刘旭.基于Python自然语言处理工具包在语料库研究中的运用[J].昆明冶金高等专科学校学报,2015,31(05):65-69.
    [9]王立翔.基于计算思维的python语言课程教学改革刍议[J].教育现代化,2017,4(15):12-13.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700