NLP--词袋模型

小柒77777

已于 2024-06-04 20:09:00 修改

阅读量680

点赞数 9

文章标签：自然语言处理学习方法机器学习深度学习学习

于 2024-06-04 16:57:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53389235/article/details/139447364

版权

词袋模型如同所有单词打散放到一个袋子中，因此这种模型无法估计语义和语序问题，每个单词都是独立的。

1.文本分词：调用jieba库，使用精确模式对每个句子进行分词，并存入列表。

2.去除停用词：遍历停用词文件的每一行，删除字符串头和尾的空白字符（包括\n，\r，\t等），加到停用词集合里。然后遍历分词后列表的每一行，再遍历每一行的每一个单词，如果该单词不在停用词集合里，就把该单词放入新的行列表中，最后将所有行列表存入文本列表中。

3.建立文本词典：去除停用词，建立总词典，使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型：for语句建立词袋模型，只包含0和1。

5.词袋模型局限性：维度灾难，向量中大量元素为0，没有考虑词与词之间的顺序和结构信息，存在语义鸿沟的问题。

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小柒77777 CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

117万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

649: 积分

450: 粉丝

321: 获赞

9: 评论

96: 收藏

私信

关注

热门文章

最新评论

结构化技能之特征筛选
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
学习方法--如何在NLP领域快速学会第一个技能?
CSDN-Ada助手: 恭喜作者第9篇博客的成功发布！学习方法在NLP领域的重要性不言而喻，希望作者能够继续分享更多关于学习方法的经验和技巧，让更多人受益。或许下一步可以深入探讨在NLP领域的实践经验，分享自己的学习心得和成果，让读者更加深入地了解这个领域。期待作者的下一篇精彩内容！愿作者越来越好，创作越来越精彩！祝好！
论文规范--展望
CSDN-Ada助手: 恭喜作者撰写了第8篇博客《论文规范--展望》，内容展望未来，着实令人期待。希望作者能继续保持创作的热情和耐心，坚持分享自己的心得体会。或许可以考虑在下一篇博客中分享一些具体的写作技巧或者经验，让读者更加受益。期待您更多的精彩内容！
自然语言处理学习--1
小柒77777: thanks
自然语言处理学习--1
征途黯然.: 自然语言处理学习1 article is outstanding and truly great.

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。