机器学习方法对不明归属二程文献的判断

数字人文研究 ›› 2021, Vol. 1 ›› Issue (2): 21-35.

机器学习方法对不明归属二程文献的判断

出版日期:2021-08-08 发布日期:2021-08-04

A Machine Learning Approach to the Judgment of Unidentified Attribution of Ercheng Sayings

Online:2021-08-08 Published:2021-08-04

摘要/Abstract

摘要： 以数字人文的新视角审视二程语录归属这一传统问题，运用机器学习的方法，将二程语录归属判断的问题转化为有监督的文本分类问题，构造BERT预训练语言模型加sigmoid激活函数的深度学习模型。以二程材料当中已知归属的文字作为模型的训练语料，对不明归属的二程语录之归属进行预测，准确率最高可达88%，证明了深度学习在小规模古汉语文本研究上的潜力。实验利用该训练后的模型，尝试对二程语录中不明归属的语录进行判断，发表了部分判断结果：《程氏遗书》中有30%、《程氏外书》中有20%是程颢语录，尤其值得关注的是对一些长久以来归属不明的著作文字比如《粹言》《经说》的作者进行了初步判断。

关键词: 二程语录, 二程, 程颐, 程颢, BERT, 机器学习, 文本分类

中图分类号:

B244.6
TP181

毕梦曦, 张力元. 机器学习方法对不明归属二程文献的判断[J]. 数字人文研究, 2021, 1(2): 21-35.

机器学习方法对不明归属二程文献的判断

A Machine Learning Approach to the Judgment of Unidentified Attribution of Ercheng Sayings

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 1

编辑推荐

Metrics