思路
新闻推荐系统里,推荐给用户喜欢看的新闻方法有很多种,其中一个很重要的就是根据用户的profile,推荐最相似的内容,如何做到最快反馈,是提高用户内容体验的重要方式。
基于新闻特点,每篇新闻都有相应的实体词或tag,tag就是用户profile的一种描述,所以可以挖掘实体词与源的关系,根据实体词给用户推送与实体词最相关的源的新闻内容。
数据统计
通过HDFS统计最近一个月的数据,以源为key,每篇文章实体词出现计为1,统计每个实体词共在多少篇文章中出现,总数排序,即可看到每个源下面出现哪些实体词出现最多。
因为实体词可以代表一种文章类型,每个优质源的作者,都是某个领域的“专家”,作者都会偏好写某方面的文章,历史、科技、娱乐、体育、军事、健康等,通过实体词找到最相关的优质源的优质文章给用户投放,用户点击的概率也就会更大。
实施
基于上面的统计信息,建立实体词到源的倒排索引,取出每个实体词前两位的优质源作为备选对象。
推送优质源数据的另外一种方法就是从其他源引导用户到优质源。同样基于实体词,建立普通源跟优质源的关系,用户点了普通源,就给推送相关的优质源数据。
基于已有数据建立优质源之间的关系,一个比较简单的方法就是用余弦相似度。通过余弦相似度排序,取出值大于0.2的作为备选对象。经过实际看,还是可以挖到相似源的。