NLP文本预处理过程

hannah_fire

于 2020-03-11 16:28:43 发布

阅读量839

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44549556/article/details/104796069

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

NLP文本预处理过程

第一步：加载数据

读取文本内容和标签

第二步：分词和去除停用词

1、读取停用词和停用符号表，放入空列表中。
2、对文本内容进行分词。
3、分词后的文本内容是否含有停用词表和停用符号，没有即存入列表中。
此时数据为二维列表
[[‘写’, ‘在’, ‘年末’, ‘冬初’, ‘孩子’, ‘流感’, ‘第五天’, ‘我们’, ‘仍然’, ‘没有’, ‘忘记’, ‘热情’, ‘拥抱’],
[‘开年’, ‘大’, ‘模型’, ‘累到’, ‘以为’, ‘自己’, ‘发烧’, ‘了’, ‘腰疼’, ‘膝盖’, ‘疼’, ‘腿疼’],
[],
[],
…
[] ]

第三步：训练词向量

1、使用word2vec（BERT）训练词向量
2、创建词典。输入的是训练的词向量和预处理的文本内容。输出的是（词：索引+1），（词：词向量），（二维列表：每句话中每个词对应的索引[[96,85,46,54,68],[64,2,56,64,52],…[]]）

第四步：获得词向量

获得每句话中每个词对应的词向量，二维列表

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP文本预处理过程

NLP文本预处理过程第一步：加载数据读取文本内容和标签第二步：分词和去除停用词1、读取停用词和停用符号表，放入空列表中。2、对文本内容进行分词。3、分词后的文本内容是否含有停用词表和停用符号，没有即存入列表中。此时数据为二维列表[[‘写’, ‘在’, ‘年末’, ‘冬初’, ‘孩子’, ‘流感’, ‘第五天’, ‘我们’, ‘仍然’, ‘没有’, ‘忘记’, ‘热情’, ‘拥抱’]...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。