基于内容的推荐算法
Content-based Recommendations(CB)根据物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。
通过抽取物品内在或者外在的特征值,实现相似度计算;比如一个电影,有导演、演员、用户标签UGC、用户评论,时长、风格等等,都可以算是特征。
将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签),和物品(item)的特征相匹配,就能得到用户对物品感兴趣的程度;
在一些电影、音乐、图书的社交网络有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC)
特征提取的方式
对物品的特征提取:打标签(tag)
专家标签(PGC),用户自定义标签(UGC),降维分析数据,提取隐语义标签(LFM)
对于文本信息的特征提取:关键词
分词、语义处理和情感分析(NLP),潜在语义分析(LSA)
相似度计算
相似度的评判,可以用距离表示,而一般更常用的是“余弦相似度”;