中文自然语言处理示例__LSTM with Attention Model运用于中文医学报告预测_Part1

本文介绍了如何预处理中文文本,特别是针对中文医学报告,涉及去除错误、创建中文字典、处理特殊字符、转换中文为数字及处理分行。通过添加特定字符(如“毕”)进行填充或截断,使得输入和输出的句子长度一致,为LSTM with Attention模型的训练做好准备。
摘要由CSDN通过智能技术生成

中文的自然语言处理和不像英语那么方便,要遇到各种各样的问题. 几个大方向,除了删去一些data里原本的错误之外,还要创造中文和数字的字典,替代中文中的特殊字符,还要处理文本,保持长度的一致,等等. 

Part1主要是在model之前,讲讲如何preprocess中文文本. 话不多说,现在开始啦. 

data长这样,15997个obs, 目的是用description predict conclusion. 每针对一句description的输入,都有一个相应的conclusion的输出.  额,复制过来的header有点问题.   

id description    conclusion
0 6002920 双肺未见明显实质性病变,心影大小形态正常。双侧膈面尚清,双侧肋膈角锐利。 双肺、心、双膈未见明显异常。
1 6003323 双肺未见明显实质性病变,心影大小形态正常。双侧膈面尚清,双侧肋膈角锐利。 双肺、心、双膈未见明显异常。
2 7462283 胸廓对称,双肺野透亮度可,肺纹理清晰,走行自然,双
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值