免费链接: Blogger(需翻Q)
文章目录
1. SIGHAN数据集简介
SIGNHAN是台湾学者(所以里面都是繁体字)公开的用于 中文文本纠错(CSC) 任务的数据集,其目前包含三个版本:
SIGHAN Bake-off 2013: http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html
SIGHAN Bake-off 2014: http://ir.itc.ntnu.edu.tw/lre/clp14csc.html
SIGHAN Bake-off 2015: http://ir.itc.ntnu.edu.tw/lre/sighan8csc.ht