电商平台商品标题短文本分类 - word2vec

最新推荐文章于 2024-07-01 16:51:24 发布

zhyueln

最新推荐文章于 2024-07-01 16:51:24 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhyueln/article/details/83479382

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

word2vec

skip-gram

Skip-gram Model

在Skip-gram模型下，我们给定当前词 $w$ ，上下文为 $c o n t e x t$ ，是语料中提取的所有单词以及对应的上下文，目标是寻找参数集合来最大化语料库条件概率:

利用softmax函数对参数进行扩展，使得条件概率 $p(cont|w;\theta)$ ：
$e^{v_c \times v_w }/\sum _{C' \in ç }e^{v_{c'} \times v_w }$
其中， $v_c$ , $v_w∈R^d$ 分别是上下文 $c o n t$ 和当前词 $w$ 的向量表示， $ç$ 是所有可用的上下文的集合。

国美平台基于词向量维度的F1-score对比

测试平台: gome, 训练平台: gome

BOW --> Naive Bayes

测试平台商品数：9766,训练平台商品数：57584

测试数：9766,全等数：9366,全等率：95.90%
测试数：9766,全等数最大值：9766,全等率最大值：100.00%

===============================================================

word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度：300

word2vec训练时间耗时：0分14.83秒
测试平台商品数：23187：,训练平台商品数：92748

一级类目 —> 类目数量：19

精度: 0.9789956645
召回: 0.9789105965
f1-score: 0.9789010590
训练+预测时间：396.8s

============================================================

word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度：300

二级类目 —> 类目数量：65

训练耗时：5分38.21秒
预测耗时：6分10.21秒
精度:0.9331480043
召回:0.9331679804
f1-score:0.9325878075

word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度：300

二级类目 —> 类目数量：65

精度:0.9502069772
召回:0.9501013499
f1-score:0.9487298204
耗时： 468.8s

============================================================

word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度：300

三级类目数量：183（分层抽样）

训练耗时：1分10.2秒
预测耗时：3分26.41秒
精度:0.9262682772
召回:0.9293569673
f1-score:0.9266659943

word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度：300

三级类目数量：183（分层抽样）精度:0.8448680623

召回:0.8412903782
F1-score:0.8297500298
预测耗时：3分19.96秒

============================================================

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。