- 博客(4)
- 收藏
- 关注
原创 推荐news
排序模型 通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是: LGB的排序模型 LGB的分类模型 深度学习的分类模型DIN
2020-12-06 22:55:33 108 1
原创 推荐系统的笔记
Word2Vec训练及gensim的使用 Word2Vec主要思想是:一个词的上下文可以很好的表达出词的语义。通过无监督学习产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbow。 skip-gram:已知中心词预测周围词。 cbow:已知周围词预测中心词。 在使用gensim训练word2vec的时候,有几个比较重要的参数 size: 表示词向量的维度。 window:决定了目标词会与多远距离的上下文产生关系。 sg: 如果是0,则是CBOW模型,是1则是Skip-Gra
2020-12-03 22:46:06 87
原创 2020-11-30
多路召回 所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。 导包 import pandas as pd imp.
2020-11-30 22:37:14 97
原创 2020-11-25
推荐系统学习笔记赛题理解赛题简介数据概况合理的创建标题,有助于目录的生成评价方式理解赛题理解Baselinedf节省内存函数节约内存的一个标配函数读取采样或全量数据debug模式:从训练集中划出一部分数据来调试代码总结 赛题理解 赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型, 在各种比赛中, 赛题理解都是极其重要且必须走好的第一步, 今天我们就从赛题的理解出发, 首先了
2020-11-25 22:36:27 82
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人