【人工智能】中文文本纠错-同音字纠错

最新推荐文章于 2025-03-19 08:00:00 发布

四维空间151

最新推荐文章于 2025-03-19 08:00:00 发布

阅读量881

点赞数 4

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/xingxingzhilong/article/details/140112039

版权

最近碰到一个有趣的任务：中文文本纠错。

中文文本纠错通常包含以下几个方面的内容：

拼写错误：纠正错别字、错音字等。例如，“学习”被写成“学習”。

标点符号：纠正标点符号的使用错误，如多余的标点、标点位置错误等。

语法错误：纠正语法错误，如句子结构不完整、语序不当、用词不当等。例如，“我昨天去看电影”纠正为“我昨天去看了电影”。

搭配错误：纠正词语搭配不当，如动词和名词、形容词和名词之间的搭配错误。

成语和惯用语错误：纠正成语或惯用语的误用。例如，“马马虎虎”被写成“马虎虎”。

同音字误用：纠正因为同音字造成的错误。例如，“他在做一件有意义的事情”中“做”误写为“作”。

语义逻辑错误：纠正句子或段落中存在的语义不清、逻辑混乱的问题。

格式问题：纠正文本格式问题，如段落缩进、行间距、字体大小等。

有这么多的角度可以进行纠错，本文针对【同音字误用】这个问题构建网络，进行模型训练。

===========================================

网络上找一些样本吧。

{
        "id": "A2-0003-1",
        "original_text": "但是我不能去参加，因为我有一点事情阿！",
        "wrong_ids": [
            17
        ],
        "correct_text": "但是我不能去参加，因为我有一点事情啊！"
    },
    {
        "id": "A2-0006-1"

最低0.47元/天解锁文章