用户名: 密码: 验证码:
四邑方言词汇相似度比较分析
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:On the lexical similarity of the Siyi dialects
  • 作者:郑伟娜
  • 英文作者:ZHENG Weina;
  • 关键词:词汇 ; 相似度 ; 语素加权法 ; 四邑方言
  • 英文关键词:lexical similarity;;morpheme weighting;;Siyi dialects
  • 中文刊名:YWZG
  • 英文刊名:Studies of the Chinese Language
  • 机构:香港中文大学(深圳)人文学院;
  • 出版日期:2017-11-10
  • 出版单位:中国语文
  • 年:2017
  • 期:No.381
  • 基金:广东省创新强校特色创新类项目“五邑侨乡方言与地方文化研究”(项目号:2015WTSCX105)资助
  • 语种:中文;
  • 页:YWZG201706006
  • 页数:12
  • CN:06
  • ISSN:11-1053/H
  • 分类号:55-65+129
摘要
本文从分析现有的方言词汇相似度计算方法入手,指出王沈计量法和加权平均法均存在不足之处。在此基础上,提出一种新的算法——语素加权法。语素加权法将每个词目权重设定为1,并根据词中语素的重要程度为每个语素加权;在语素加权的基础上,将构词法纳入考虑,计算其相似度。运用语素加权法,统计了普通话、广州话及七个四邑方言点的词汇相似度,并在此基础上为四邑方言做了聚类分析。
        With a review of the existing measurements of lexical similarity among dialects, this study demonstrates the shortcomings of the Wang-Shen measurements and the weighted average method, and proposes a new measurement, i.e. morpheme weighting. Morpheme weighting assigns the invariable weight 1 to each word, and morphemes are weighted according to their importance as well as word-formation. By adopting this method, the paper calculates the lexical similarity of Mandarin, the Guangzhou dialect and the Siyi dialects, and conducts a clustering analysis for the Siyi dialects. It is found that the relations among the Siyi dialects are a reflection of their geographical positions in relation to one another and that lexical similarity reflects a synchronic rather than diachronic relation.
引文
北京语言学院语言教学研究所1986《现代汉语频率词典》,北京语言学院出版社。
    布龙菲尔德1980《语言论》(中译本),商务印书馆。
    陈保亚1996《论语言接触与语言联盟》,语文出版社。
    陈海伦1996《论方言相关度、相似度、沟通度指标问题》,《中国语文》第5期。
    程传鹏吴志刚2012《一种基于知网的句子相似度计算方法》,《计算机工程与科学》第2期。
    甘于恩2010《广东四邑方言语法研究》,暨南大学出版社。
    甘于恩邵慧君2000《广东四邑方言词汇特点》,单周尧、陆镜光主编《第七届国际粤方言研讨会论文集》(《方言》增刊),商务印书馆。
    李如龙2012《汉语方言的比较研究》,商务印书馆。
    刘群李素建2002《基于〈知网〉的词汇语义相似度》,《中文计算语言学》第2期。
    马希文1989《比较方言学中的计量方法》,《中国语文》第5期。
    牛永洁张成2012《多种字符串相似度算法的比较研究》,《计算机与数字工程》第3期。
    邵慧君秦绿叶2008《廉江市粤客词汇相似度的计量分析》,《中国语文》第2期。
    沈榕秋1994《谈汉语方言的定量研究》,《语文研究》第2期。
    汪锋王士元2005《语义创新与方言的亲缘关系》,《方言》第2期。
    王士元沈钟伟1992《方言关系的计量表述》,《中国语文》第2期;《王士元语言学论文集》,商务印书馆,2007。
    王育德1960《中国五大方言の分列年代の言语年代学试探》,《言语研究》38号;《中国五大方言分裂年代的语言年代学试探》,《语言学资料》,1962。
    徐通锵1991《历史语言学》,商务印书馆。
    游汝杰杨蓓1998《广东话、上海话和普通话词汇接近率的计量研究》,《汉语计量与计算机研究》第12期。
    詹伯慧2002《广东粤方言概要》,暨南大学出版社。
    詹伯慧张日昇(主编)1988《珠江三角洲方言词汇对照》,广东人民出版社。
    詹伯慧张日昇1989《珠江三角洲粤方言的常用词》,《方言》第4期。
    张树铮1998《关于方言沟通度和方音理解的几个问题》,《中国语文》第3期。
    郑锦全1988《汉语方言亲疏关系的计量研究》,《中国语文》第2期。
    郑锦全1994《汉语方言沟通度的计算》,《中国语文》第1期。
    中国社会科学院语言研究所等编2012《中国语言地图集·汉语方言卷》第2版,商务印书馆。
    Swadesh,Morris 1952 Lexico-statistic dating of prehistoric ethnic contacts,Proceedings of the American,Philosophical Society,Vol.96:452-463.
    Swadesh,Morris 1955 Tow ards greater accuracy in lexico-statistic dating,International Journal of American Linguistics,Vol.21:121-137.
    (1)现为江门市辖下的新会区、台山市、开平市和恩平市。
    (2)新宁,即台山旧称,参看甘于恩(2010:7)。
    (3)郑锦全虽然也是以词汇为单位统计,但他认为,“我们知道‘日头’是‘日’加后缀‘头’,‘日头’和‘日’属于同一词族,而‘太阳’在形态上跟它们没有联系。我们因此希望把这一事实考虑进去并作适当的统计处理。”(郑锦全,1988:91)后续研究中他指出,“以词汇来说,‘太阳’‘日’和‘日头’如果三者的权重一样,那就忽视了‘日’和‘日头’比较紧密的关系。”(郑锦全,1994:38)同样,王士元、沈钟伟(1992、2007:241-242)列举词目“爷爷”在吴方言四点中的变体“阿爹、爷爷、阿爷、老爹”并指出,“这四个词汇形式若以词为单位来看,个个都不同。……但从语素的角度来看,情况就大相径庭了,‘阿爹’和‘阿爷’都在构词上用词缀‘阿’”。
    (4)本文例子全部来自《珠江三角洲方言词汇对照》,下同。
    (5)根据邵慧君、秦绿叶(2008:159),构词法有不同的层次,分析时以最小区分特征为区分点。比如“阿妈”一词,从构词法上来看,它是合成词---派生词---前缀派生词,分析时以“前缀派生词”为区分点。
    (6)这些语素权重是否恰当,有待在下来的研究中再进一步验证和完善。
    (7)对重叠式的性质,学界有不同的认识。比如,有的学者把重叠等同于附加,即相当于在基式基础上加上一个等同于基式的词缀(参看布龙菲尔德,1980:271)。
    (8)其中,Distance即两个字符串的编辑距离,而Length1和Length2则分别为两个字符串的长度。
    (9)其中,Coverage为所有匹配字符串的长度之和。
    (10)更确切地说,词汇总体上更能反映语言/方言间的共时亲疏关系;而如果区分核心词与非核心词、或者在词汇比较中加入语义创新因素,则也能从词汇角度揭示语言/方言间的亲缘关系。详见陈保亚(1996),汪锋、王士元(2005)等。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700