基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点

本文提出了一种结合BERT、BiLSTM和CRF的新模型,以及新的数据预处理方法,用于古籍自动标点。模型在古文自动标点上的性能达到85%,比传统方法提升8%,并在未见过的古文数据集上达到78%。实验表明,新模型和预处理方法能更好地捕捉语义和上下文信息,以及标签规范。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

古文相较于现代文不仅在用词、语法等方面存在巨大差异,还缺少标点,使人难以理解语义。采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解。为提高古文自动标点的准确率,将深层语言模型BERT与双向长短记忆网络和条件随机场模型(BiLSTM+CRF)相结合建立新模型,并提出新的数据预处理方法。该模型在古文自动标点上的各项性能指标均能达到85%左右,比常用方法提高了8%左右。同时,该模型也表现出较好的泛化性能,即使在从未训练和预测过的古文数据集上各项指标也能达到78%左右。实验结果表明,该模型和新的预处理方法不仅能够更好地学习古文的语义信息和上下文关联信息,还能够学习标签的规范信息。

0 引言

中华文明源远流长,流传下很多古籍文本,涵盖了政治、历史、哲学、文学、医学等多方面内容。通过对古籍文本进行整理和学习,现代人能够了解并学习古人的智慧,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗伯特之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值