最近碰到一个有趣的任务:中文文本纠错。
中文文本纠错通常包含以下几个方面的内容:
拼写错误:纠正错别字、错音字等。例如,“学习”被写成“学習”。
标点符号:纠正标点符号的使用错误,如多余的标点、标点位置错误等。
语法错误:纠正语法错误,如句子结构不完整、语序不当、用词不当等。例如,“我昨天去看电影”纠正为“我昨天去看了电影”。
搭配错误:纠正词语搭配不当,如动词和名词、形容词和名词之间的搭配错误。
成语和惯用语错误:纠正成语或惯用语的误用。例如,“马马虎虎”被写成“马虎虎”。
同音字误用:纠正因为同音字造成的错误。例如,“他在做一件有意义的事情”中“做”误写为“作”。
语义逻辑错误:纠正句子或段落中存在的语义不清、逻辑混乱的问题。
格式问题:纠正文本格式问题,如段落缩进、行间距、字体大小等。
有这么多的角度可以进行纠错,本文针对【同音字误用】这个问题构建网络,进行模型训练。
===========================================
网络上找一些样本吧。
{
"id": "A2-0003-1",
"original_text": "但是我不能去参加,因为我有一点事情阿!",
"wrong_ids": [
17
],
"correct_text": "但是我不能去参加,因为我有一点事情啊!"
},
{
"id": "A2-0006-1"