浅层深度学习的自然语言研究（4）

最新推荐文章于 2014-12-05 20:21:28 发布

Bergkampcjd

最新推荐文章于 2014-12-05 20:21:28 发布

阅读量580

点赞数

分类专栏：科学研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuwen123/article/details/40457653

版权

科学研究专栏收录该内容

9 篇文章 0 订阅

订阅专栏

上一期，我们已经安装好了gensim，那今天主要是讲用它来干什么。

前面谈到我主要是想在Python下进行算法研究，但是我们已经得到了每条帖子的向量，那就要有个工具能够读取这个文件。

gensim的models.word2vec模块正好解决了这个，第一次看到时候感觉所有问题都解决了，结果就是一个大坑。

命令很简单，如下所示：

可以读取文件过程中报错，说是不少其中有编码不是utf-8，不能识别。

紧接着我又重头做了一遍，还是不行，还是这个错误，非常之郁闷。

后来想到，以前中文切词，切出来的词总有那种莫名其妙的字符，可是又找不到办法剔除掉，只能忍痛放弃了这个工具。

可是，还是要读取向量啊，不然怎么做后面的分类了，最后就到了word2vec里面的distance程序，稍加改动就可以读取帖子向量。

当然还有Java的读取向量的程序，由ansj编写，网址如下：

https://github.com/NLPchina/Word2VEC_java

程序写得比较清晰，看过一遍，没有实验过，大家可以尝试下。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅层深度学习的自然语言研究（4）

这一期本来也应该算是深度学习的内容，但
复制链接

扫一扫

专栏目录

Bergkampcjd CSDN认证博客专家 CSDN认证企业博客

码龄15年

8: 原创

43万+: 周排名

188万+: 总排名

1万+: 访问

: 等级

239: 积分

3: 粉丝

0: 获赞

11: 评论

4: 收藏

私信

关注

热门文章

分类专栏

个人情感 1篇
科学研究 9篇

最新评论

浅层深度学习的自然语言研究（3）
shchsunshine: 你好：请问现在有”句子向量“的部分代码吗？我想参考一下，急用。我的扣扣755741205，谢谢
浅层深度学习的自然语言研究（3）
Bergkampcjd 回复 qq_22245033: 是的，是同时进行的，并且在新的向量上反馈迭代。同时需要注意，Paragraph vector存在于对应的文档的整个训练过程中；词向量是采用滑动窗口的训练模式，但词向量被每篇文档共享。
浅层深度学习的自然语言研究（3）
Bergkampcjd: lidayuls: 你可以用Google查一下Paragraph Vector，应该能找到你想要的东西。
浅层深度学习的自然语言研究（3）
qq_22245033 回复 Bergkampcjd: 文章向量当成词向量，但是文章中包含的每个词，也还是词向量。随机初始化，是同时把文章向量和词向量一起进行？然后在这个新向量上进行反馈迭代吗？
浅层深度学习的自然语言研究（3）
Bergkampcjd: lidayuls: 十分抱歉，目前我们很多东西都没有完善，还没有完整的程序供大家应用，如果有了进一步的进展，我会在这里告诉大家，谢谢你的关注！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。