作者,中国移动李琳,咪咕灯塔
在众多内容平台中存在严重的马太效应,现象表明,热门内容逐渐走向流行,例如大量歌曲长时间得不到曝光,使得平台数据开始服从长尾分布,即20%的热门内容聚集了74%的收听行为。对千万数量级的音乐曲库来说,用户行为的数据稀疏性比其他内容(如书籍、电影)平台更为严重,此外,每天新上架的作品会进一步加剧数据的稀疏性。为了缓解数据稀疏导致的不精准推荐问题,当前主流方法是将用户和歌曲分别映射到相同的稠密语义空间,然后利用用户和歌曲在该空间中的内积来挖掘用户对歌曲的偏好关系。虽然这种方法在一定程度上提升了歌曲推荐的准确率,但仅能挖掘用户与歌曲的一般性关系,无法从全局和细粒度层面区分用户对歌曲局部特征的偏好程度。加之,大量新上架歌曲和非热门歌曲导致模型在不同数据稀疏度下的鲁棒性下降。
对于短视频内容的,冷启动用户观看的内容,如何尽可能覆盖到用户的偏好,从而发现用户兴趣,进行用户推荐的实时性和精准性,一直是个研发课题。对于冷启动用户常推荐热门视频或将视频内容先根据特征做分类聚类,使用GBDT+LR算法或深度学习算法wide&deep对视频内容质量评分,预测新上架视频内容的点击率,然后将尽可能宽范围的视频按评分推荐给用户,以尽可能覆盖到用户的偏好,从而发现用户兴趣,进行用户画像,完成冷启动。
一、冷启动问题中的难点
推荐系统的冷启动一直是工业应用中的难点,成为热门的视频一定是很多用户已经点击观看过,不再是很新的内容,新内容在得到用户的直接行为反馈前,预测的内容评分值并不能真正衡量内容的质量