用word2vec 跑搜狗SogouCS语料 - 大小4G | 6.8 亿词长 | 57万词汇

本文介绍了如何在单机上使用word2vec工具,对大小为4GB、包含6.8亿词的搜狗SogouCS语料进行训练。经过68分钟的分词处理后,开始训练,设置参数如窗口大小、隐藏层数等,并预计总共需要约12.8小时完成训练。最终生成的词向量文件vectors.bin大小为450MB。数据来源于ftp://ftp.labs.sogou.com/Data/SogouCS/SogouCS.tar.gz。
摘要由CSDN通过智能技术生成

[分词]

单机跑,耗时:   68分钟


[ 训练 ]

$ time ./word2vec -train /data/sogou/sohunews_segmented_1line.txt -output /data/sogou/vectors_sohunews.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 30 -binary 1
Starting training using file /data/sogou/sohunews_segment

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值