【人工智能】中文文本纠错-同音字纠错

最近碰到一个有趣的任务:中文文本纠错

中文文本纠错通常包含以下几个方面的内容:

拼写错误:纠正错别字、错音字等。例如,“学习”被写成“学習”。

标点符号:纠正标点符号的使用错误,如多余的标点、标点位置错误等。

语法错误:纠正语法错误,如句子结构不完整、语序不当、用词不当等。例如,“我昨天去看电影”纠正为“我昨天去看了电影”。

搭配错误:纠正词语搭配不当,如动词和名词、形容词和名词之间的搭配错误。

成语和惯用语错误:纠正成语或惯用语的误用。例如,“马马虎虎”被写成“马虎虎”。

同音字误用:纠正因为同音字造成的错误。例如,“他在做一件有意义的事情”中“做”误写为“作”。

语义逻辑错误:纠正句子或段落中存在的语义不清、逻辑混乱的问题。

格式问题:纠正文本格式问题,如段落缩进、行间距、字体大小等。

有这么多的角度可以进行纠错,本文针对【同音字误用】这个问题构建网络,进行模型训练。

===========================================

网络上找一些样本吧。

{
        "id": "A2-0003-1",
        "original_text": "但是我不能去参加,因为我有一点事情阿!",
        "wrong_ids": [
            17
        ],
        "correct_text": "但是我不能去参加,因为我有一点事情啊!"
    },
    {
        "id": "A2-0006-1"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值