摘要
古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。
0 引言
中华文明源远流长,流传下很多古籍文本,涵盖了政治、历史、哲学、文学、医学等多方面内容。通过对古籍文本进行整理和学习,现代人能够了解并学习古人的智慧,

本文提出了一种结合BERT、BiLSTM和CRF的新模型,以及新的数据预处理方法,用于古籍自动标点。模型在古文自动标点上的性能达到85%,比传统方法提升8%,并在未见过的古文数据集上达到78%。实验表明,新模型和预处理方法能更好地捕捉语义和上下文信息,以及标签规范。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



