浅层深度学习的自然语言研究(4)

上一期,我们已经安装好了gensim,那今天主要是讲用它来干什么。

前面谈到我主要是想在Python下进行算法研究,但是我们已经得到了每条帖子的向量,那就要有个工具能够读取这个文件。

gensim的models.word2vec模块正好解决了这个,第一次看到时候感觉所有问题都解决了,结果就是一个大坑。

命令很简单,如下所示:


可以读取文件过程中报错,说是不少其中有编码不是utf-8,不能识别。

紧接着我又重头做了一遍,还是不行,还是这个错误,非常之郁闷。

后来想到,以前中文切词,切出来的词总有那种莫名其妙的字符,可是又找不到办法剔除掉,只能忍痛放弃了这个工具。

可是,还是要读取向量啊,不然怎么做后面的分类了,最后就到了word2vec里面的distance程序,稍加改动就可以读取帖子向量。

当然还有Java的读取向量的程序,由ansj编写,网址如下:

https://github.com/NLPchina/Word2VEC_java

程序写得比较清晰,看过一遍,没有实验过,大家可以尝试下。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值