基于文本语义相似度计算的100种中国
古代文本聚类分析
使用Python内嵌的difflib法进行文本语义相似度计算,对100种中国古代文本(也有三四首现当代作品)逐句进行语义相似度计算。将语义相似度转换为语义距离,使用SPSS进行层级聚类(组间联结,平方欧氏距离;z值,全距0-1)。得到100种古代文本聚类分析树图如下:
聚类树图表明依据语义相似度计算进行文本聚类分析在技术上是可行的。上图仅仅是对技术和方法的测试,其中文本本次使用的句子数量平均值为10个左右,选择的文本也具有随机性。后期将进行更精细周全的分析研究。(ranqibin@126.com)