word2vec
在Skip-gram模型下,我们给定当前词 w w w,上下文为 c o n t e x t context context,是语料中提取的所有单词以及对应的上下文,目标是寻找参数集合来最大化语料库条件概率:
利用softmax函数对参数进行扩展,使得条件概率
p
(
c
o
n
t
∣
w
;
θ
)
p(cont|w;\theta)
p(cont∣w;θ):
p
(
c
o
n
t
│
w
;
θ
)
=
e
v
c
×
v
w
/
∑
C
′
∈
ç
e
v
c
′
×
v
w
p(cont│w;θ) = e^{v_c \times v_w }/\sum _{C' \in ç }e^{v_{c'} \times v_w }
p(cont│w;θ)=evc×vw/C′∈ç∑evc′×vw
其中,
v
c
v_c
vc,
v
w
∈
R
d
v_w∈R^d
vw∈Rd分别是上下文
c
o
n
t
cont
cont和当前词
w
w
w的向量表示,
ç
ç
ç是所有可用的上下文的集合。
测试平台: gome, 训练平台: gome
BOW --> Naive Bayes
测试平台商品数:9766,训练平台商品数:57584
测试数:9766,全等数:9366,全等率:95.90%
测试数:9766,全等数最大值:9766,全等率最大值:100.00%
===============================================================
word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300
word2vec训练时间耗时:0分14.83秒
测试平台商品数:23187:,训练平台商品数:92748
一级类目 —> 类目数量:19
精度: 0.9789956645
召回: 0.9789105965
f1-score: 0.9789010590
训练+预测时间:396.8s
============================================================
word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度:300
二级类目 —> 类目数量:65
训练耗时:5分38.21秒
预测耗时:6分10.21秒
精度:0.9331480043
召回:0.9331679804
f1-score:0.9325878075
word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300
二级类目 —> 类目数量:65
精度:0.9502069772
召回:0.9501013499
f1-score:0.9487298204
耗时: 468.8s
============================================================
word2vec + SVM —> 商品数量< 500的类目剔除, 词向量维度:300
三级类目数量:183(分层抽样)
训练耗时:1分10.2秒
预测耗时:3分26.41秒
精度:0.9262682772
召回:0.9293569673
f1-score:0.9266659943
word2vec + KNN —> 商品数量< 500的类目剔除, 词向量维度:300
三级类目数量:183(分层抽样)精度:0.8448680623
召回:0.8412903782
F1-score:0.8297500298
预测耗时:3分19.96秒
============================================================