中文自然语言处理示例__LSTM with Attention Model运用于中文医学报告预测_Part1

最新推荐文章于 2024-06-16 10:19:24 发布

wyxjohn205

最新推荐文章于 2024-06-16 10:19:24 发布

阅读量783

点赞数

分类专栏： NLP 文章标签： python LSTM seq2seq 中文自然语言处理

本文链接：https://blog.csdn.net/wyxjohn205/article/details/80746011

版权

本文介绍了如何预处理中文文本，特别是针对中文医学报告，涉及去除错误、创建中文字典、处理特殊字符、转换中文为数字及处理分行。通过添加特定字符（如“毕”）进行填充或截断，使得输入和输出的句子长度一致，为LSTM with Attention模型的训练做好准备。

摘要由CSDN通过智能技术生成

中文的自然语言处理和不像英语那么方便,要遇到各种各样的问题. 几个大方向,除了删去一些data里原本的错误之外,还要创造中文和数字的字典,替代中文中的特殊字符,还要处理文本,保持长度的一致,等等.

Part1主要是在model之前,讲讲如何preprocess中文文本. 话不多说,现在开始啦.

data长这样,15997个obs, 目的是用description predict conclusion. 每针对一句description的输入,都有一个相应的conclusion的输出. 额,复制过来的header有点问题.

id	description	conclusion
0	6002920	双肺未见明显实质性病变，心影大小形态正常。双侧膈面尚清，双侧肋膈角锐利。	双肺、心、双膈未见明显异常。
1	6003323	双肺未见明显实质性病变，心影大小形态正常。双侧膈面尚清，双侧肋膈角锐利。	双肺、心、双膈未见明显异常。
2	7462283	胸廓对称，双肺野透亮度可，肺纹理清晰，走行自然，双

关注

专栏目录