电商平台商品标题短文本分类 - word2vec

word2vec

skip-gram

Skip-gram Model

在Skip-gram模型下,我们给定当前词 w w w,上下文为 c o n t e x t context context,是语料中提取的所有单词以及对应的上下文,目标是寻找参数集合来最大化语料库条件概率:

利用softmax函数对参数进行扩展,使得条件概率 p ( c o n t ∣ w ; θ ) p(cont|w;\theta) p(contw;θ)
p ( c o n t │ w ; θ ) = e v c × v w / ∑ C ′ ∈ ç e v c ′ × v w p(cont│w;θ) = e^{v_c \times v_w }/\sum _{C' \in ç }e^{v_{c'} \times v_w } p(contw;θ)=evc×vw/Cçevc×vw
其中, v c v_c vc, v w ∈ R d v_w∈R^d vwRd分别是上下文 c o n t cont cont和当前词 w w w的向量表示, ç ç ç是所有可用的上下文的集合。

国美平台基于词向量维度的F1-score对比

测试平台: gome, 训练平台: gome

BOW --> Naive Bayes

测试平台商品数:9766,训练平台商品数:57584

测试数:9766,全等数:9366,全等率:95.90%
测试数:9766,全等数最大值:9766,全等率最大值:100.00%

===============================================================

word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300

word2vec训练时间耗时:0分14.83秒
测试平台商品数:23187:,训练平台商品数:92748

一级类目 —> 类目数量:19

精度: 0.9789956645
召回: 0.9789105965
f1-score: 0.9789010590
训练+预测时间:396.8s

============================================================

word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度:300
二级类目 —> 类目数量:65

训练耗时:5分38.21秒
预测耗时:6分10.21秒
精度:0.9331480043
召回:0.9331679804
f1-score:0.9325878075


word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300
二级类目 —> 类目数量:65

精度:0.9502069772
召回:0.9501013499
f1-score:0.9487298204
耗时: 468.8s

============================================================

word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度:300
三级类目数量:183(分层抽样)

训练耗时:1分10.2秒
预测耗时:3分26.41秒
精度:0.9262682772
召回:0.9293569673
f1-score:0.9266659943


word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300
三级类目数量:183(分层抽样)精度:0.8448680623

召回:0.8412903782
F1-score:0.8297500298
预测耗时:3分19.96秒

============================================================

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值