中文的自然语言处理和不像英语那么方便,要遇到各种各样的问题. 几个大方向,除了删去一些data里原本的错误之外,还要创造中文和数字的字典,替代中文中的特殊字符,还要处理文本,保持长度的一致,等等.
Part1主要是在model之前,讲讲如何preprocess中文文本. 话不多说,现在开始啦.
data长这样,15997个obs, 目的是用description predict conclusion. 每针对一句description的输入,都有一个相应的conclusion的输出. 额,复制过来的header有点问题.
id | description | conclusion | |
---|---|---|---|
0 | 6002920 | 双肺未见明显实质性病变,心影大小形态正常。双侧膈面尚清,双侧肋膈角锐利。 | 双肺、心、双膈未见明显异常。 |
1 | 6003323 | 双肺未见明显实质性病变,心影大小形态正常。双侧膈面尚清,双侧肋膈角锐利。 | 双肺、心、双膈未见明显异常。 |
2 | 7462283 | 胸廓对称,双肺野透亮度可,肺纹理清晰,走行自然,双 |