核心贡献:
Item2vec算法:
Item2vec中把用户浏览的商品集合等价于word2vec中的word的序列,即句子(忽略了商品序列空间信息spatial information) 。出现在同一个集合的商品对视为 positive。对于集合目标函数:
同word2vec,利用负采样,将定义为:
subsample的方式也是同word2vec:
利用随机梯度下降法SGD学习的目标函数max,得到每个商品的embedding representation,商品之间两两计算cosine相似度即为商品的相似度。
模型结果:
模型缺陷:
1、用户的行为序列时序性缺失
2、用户行为序列中的item强度是无法区分
算法流程框图:
实践步骤:
1、打开Virtual Box虚拟机,操作系统为ubuntu
创建虚拟机Item2vec(自动挂载镜像Kylin,麒麟ubuntu)
安装操作系统kylin下的ubuntu,一步一步设置虚拟机的各种介质:硬盘大小,内存等。
刚装好系统,无法上传 文件。主要是因为为建立root以及,nlp用户的密码权限。同时没有安装好ssh远程登入附件:
sudo passwd root(完成超级用户的权限输入),看看能不能正常普通与超级用户之间的切换。
按ctrl+alt+t 打开终端,输入:sudo apt-get update
更新安装包工具apt:sudo apt-get update
安装远程登入ssh:sudo apt-get install ssh 或者 sudo apt-get install openssh-client
创建用户:
sudo useradd -m hadoop -s /bin/bash
增加管理员权限: