word2vec代码实战

最新推荐文章于 2024-07-12 18:28:28 发布

SU_ZCS

最新推荐文章于 2024-07-12 18:28:28 发布

阅读量934

点赞数 1

文章标签： word2vec 自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcs2632008/article/details/127034558

版权

1 代码及数据集下载

代码链接：https://github.com/ttb1534/word2vec-include-datapreprocess
数据集链接：https://pan.baidu.com/s/1RHhHp8Y5_Y0AjYQ5Oa0CTA（密码1534）

下载的代码及数据如下：

datasave/cutdata0.txt（cutdata_prepare.txt，作者事先处理好的）：预处理后的数据
datasave/word_embedding.txt（word_embedding_pretrained.txt，作者事先训练好的）：训练好的词嵌入

dataset/news.txt ：为所用原始数据集，取自真实的新闻报道
dataset/cn_stopwords.txt ：为需要去除的停顿词

dataprocess.py ：数据预处理，得到cutdata0.txt
train.py ：训练，得到word_embedding.txt
test.py ：测试

2 数据预处理

将原始文本数据进行分词，去除停顿词（停顿词是语言中经常出现的单词，不包含太多有用信息，甚至在后续处理中对数据产生干扰）。执行dataprocess.py，得到如下预处理数据：

3 训练

将数据进行训练，执行train.py，我的显卡是GTX1650S，大约训练了5个多小时，结果如下，词嵌入维度是100的。

4 测试

上述训练得到的词嵌入编码可以用到需要词嵌入的场合，例如文本匹配。作者给出的测试，即输入一个中文词语，输出和给定词在词嵌入空间最为接近的一些词，执行test.py。

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
word2vec代码实战

word2vec代码实战
复制链接

扫一扫

SU_ZCS CSDN认证博客专家 CSDN认证企业博客

码龄7年

30: 原创

10万+: 周排名

216万+: 总排名

23万+: 访问

: 等级

580: 积分

53: 粉丝

200: 获赞

57: 评论

922: 收藏

私信

关注

热门文章

最新评论

CUDA安装教程
xj97as: 苹果M1芯片的mac出现这个代码怎么解决
BERT微调（SQuAD v1.1）
可我什么都不会啊: 嗯嗯感谢
BERT微调（SQuAD v1.1）
SU_ZCS: 可以的，epoch自己设置，效果不好可以增加epoch值
BERT微调（SQuAD v1.1）
可我什么都不会啊: 小白提问，请问epoch可以不是2吗，我发现调到3效果似乎更好了。
AutoDL使用
Mikaelgogogo: 博主你好，我2.1 配置环境命令最后输入conda activate base后直接显示错误，没有这个command请问要怎么办呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SU_ZCS 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。