word2vec学习笔记

        网上介绍word2vec使用的文章已经有很多了,基本的知识都可以找到,我这篇分享主要是针对目前最新的一些东西结合自己使用过程中出现的问题做的总结,也为自己做一个工作记录,备注一链接就是一个比较完善的使用word2vec的教程,但是在这些bolg中介绍的一些东西有些是过时的。

 

1.下载word2vec源码有点问题,我用vpn都没法再本地用svn下载代码,幸好我有国外的vps服务器,在服务器上下载的源代码然后拷贝到本地。

2.使用ansj项目进行分词,这一步对一个刚接触java不久的新人来说有点麻烦

        麻烦一:下载项目需要的依赖包并写简单程序测试分词功能时我用3.6版本有警告没法分词,但是刚好碰上代码管理者1个小时前上传的新的3.7版本的jar包,然后果断使用新的jar包就ok了,具体原因不清楚。

        麻烦二:在备注一的连接中说的tree-split-word依赖包需要自己编译通过编译器下载,但是我使用的时候在网上找到了对应的jar包,链接是备注二。

        麻烦三:原始data文件编码格式最好是utf-8的,在程序中也能设置文件的输入格式,然后根据输入格式再设置输出格式。

3.需要的jar包和word2vec源码(我发表这篇文章时最新下载的源码)已经上传csdn资源了,链接在备注五。

 

下面是训练结果:

 

备注:

备注一:用中文把玩Google开源的Deep-Learning项目word2vec

备注二:tree-split-word依赖包

备注三:IntelliJ IDEA运行test控制台中文乱码

备注四:java中文分词ansj的使用

备注五:资源下载

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值