Word2vec使用详解(1)

最近在做一个信息过滤的项目,比如企业、机构相关信息,想看看和企业名称相关的词有那些,就想到了用word2vec来做,为了自己以后参考,就将详细的使用过程记录下来,如果你不小心看到或者对你有些许帮助或者有些地方有错误,还请你不辞辛苦,回复一下,在此,先谢过了。

做菜之前,先列一下用到的食材(呵呵):

1. 虚拟化软件 

    采用VirtualBox5.2,可以到官网下载 https://www.virtualbox.org/,网络好的话几分钟个就能下完。

2. linux系统

   采用CentOS-7-x86_64-DVD-1511.iso, 直接去官网下载 https://www.centos.org/download/,这个有点大,下了好长时间。

3. Word2vec

   直接百度搜索google原生态c版Word2vec,在CSDN上找到一个需要分值比较少的(本人下载分太少,感谢不要分的兄弟!),赶紧贴一下地址:http://download.csdn.net/download/github_37412255/10041177?locationNum=4&fps=1,本人在此上传一下,供学习的兄弟下载;

4. 数据集

   如果网络不好的,需要提前准备好数据集。下载地址:

          http://mattmahoney.net/dc/text8.zip,

          http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2012.en.shuffled.gz

    如果网络状况好,可以直接在trunk目录下运行下列命令:

           ./demo-word.sh   和 ./demo-phrases.sh(太大了,基本直接上下不了)

5. 安装虚拟机

       自己懒得的截图了,给个链接http://www.xitongcheng.com/jiaocheng/win10_article_11827.html,基本默认安装就可以了,没有特特殊需要设置的。

6. 安装CentOS系统

      自己装了两边,第一遍装上发现没有图形界面,忘记在“安装步骤摘要”中的“软件选择”选择安装图形组件,后来基本本上能装的都装上了,来个链接给大家参考:http://www.linuxidc.com/Linux/2016-09/135593.htm。

7. 安装virtualbox增强功能


(1)登陆Linux系统之后,如上图所示,选择“安装增强功能...",然后要求Linux验证,安装完成后,鼠标就可以在centos系统和windows系统正常拖动;

(2)下面设置一下,实现在centos系统和windows系统来回拷贝,如下图所示,

(3)设置共享文件夹

  如下图所示,点击右上侧的绿色的添加windows共享文件夹路径,本例是F:\download,设定一个名称为download(centos挂载用到),然后登陆centos系统,在/mnt下新建一个文件夹wlshare,然后挂载:mount -t vboxsf download /mnt/wlshare/。这样文件拷贝到F:\download下,在/mnt/wlshare下就可以看到了。 


8. 具体使用Word2vec

  首先,登陆到Centos系统,将Word2vec上传到Centos系统中,我是上传到/home/xhcentos7/下,然后cd 到word2vec的trunk目录下,输入make,如果没有问题,接下来就可以训练词向量了。

(1)词向量

    执行 ./word2vec -train text8 -output vectors_text8.bin -cbow 1 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 20 -binary 1 -iter 15 ,结果如下:


   然后可以计算china最近的词,如下所示:


(2)由于是虚拟机,短语向量一直没有跑出来。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值