北京语言资源高精尖创新中心项目子课题项目进展报告会举行

2019-05-23

北京语言资源高精尖创新中心项目子课题项目进展报告会举行

北京语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目进展报告会于近日举行。第三子课题“基于词汇距离计算的语言分类研究”项目负责人冉启斌介绍了子课题在数据库建设、语言距离计算及论文撰写方面的情况;并介绍了子课题的下一步研究计划。

第三子课题项目成员莱顿大学Soeren Wichmann介绍了一种新的语系/语言年代自动断定方法——广义贝叶斯年代断定法(Generalized Bayesian Dating)。该方法的优点是使用自动方法提取同源词,不需要设定内部校准点,语种数量也没有不超过2000的限制。使用这一方法对ASJP数据库中的汉藏语系语言进行分析,得到的结论是汉藏语系产生于距今约6300年前(此前Holman et al2011)依据ASJP年代推断方法得到的结果是5261年之前)。使用该方法得到的Dravidian语系、Turkic语系的产生年代落在以往有关该语系产生年代的范围之内;但Austronesian语系、Bantu语系、Core Indo-European语系、Pama-Nyungan语系的产生年代与以往研究相差较大。


冉启斌介绍了基于ASJP模式的汉藏语系语言距离计算情况。系统发育方法分析看到,东北官话与闽方言之间的亲缘关系最远,客赣徽湘等方言过渡性特征明显;汉语方言中接触表现突出,北方方言和过渡性方言的内部接触非常多。南宁、广州等方言与中古汉语相似度最大,西宁、昆明等方言与中古汉语相似度最小。如果以洛阳为原点进行计算,看到距离洛阳越远的方言,与中古汉语的相似度有增大趋势,相似度的增加速率为1.875/500km。随着离开洛阳的距离越远,该地方言与其他现代汉语方言的相似度均值逐渐变小。将中古汉语和上古汉语考虑进来,汉语相似度的历时变化速率为0.79/千年。汉藏语系语族内语言/方言的平均相似度按降序为:汉语方言>壮侗语族>苗瑶语族>藏缅语族。