霸道的小瑞-CSDN博客

原创 datawhale2020年2月组队学习NLP实践task2

datawhale2020年2月组队学习NLP实践task2用colab跑了一下baseline2epoch，batchsize=16然后在total跑了1个epoch结果

2021-02-25 23:54:07 151

原创 datawahle2020年2月组队学习NLP实践task1

datawahle2020年2月组队学习NLP实践task1嗯实验室放寒假登不上服务器，1050ti实在跑不动又懒得尝试其他的平台，所以baseline没跑完不过这次也有收获就是入门了一下docker。docker我用的win10.本来是家庭版为了用docker升级为专业版，tb买了4块钱激活码激活的。升级后还需要进bios开启虚拟化，控制面板打开hyperV，下载WSL2。之后才能正常运行。...

2021-02-21 22:39:25 176 1

原创零基础入门推荐系统-新闻推荐 Task5 排序模型

零基础入门推荐系统-新闻推荐 Task5 排序模型排序模型DIN模型简介本篇为Datawhale组队学习笔记，Datawhale推荐系统实践天池比赛地址：零基础入门推荐系统排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，

2020-12-06 23:38:03 258

原创零基础入门推荐系统-新闻推荐 Task4 特征工程

零基础入门推荐系统-新闻推荐 Task4 特征工程制作特征和标签，转成监督学习问题数据读取训练和验证集的划分Word2Vec训练及gensim的使用对训练数据做负采样制作与用户历史行为相关特征用户和文章特征用户相关特征分析一下点击时间和点击文章的次数，区分用户活跃度本篇为Datawhale组队学习笔记，Datawhale推荐系统实践天池比赛地址：零基础入门推荐系统制作特征和标签，转成监督学习问题我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id

2020-12-03 23:12:56 273

原创零基础入门推荐系统-新闻推荐 Task3 多路召回

零基础入门推荐系统-新闻推荐 Task3 多路召回多路召回读取数据item embedding sim召回YoutubeDNN召回冷启动问题多路召回合并本篇为Datawhale组队学习笔记，Datawhale推荐系统实践天池比赛地址：零基础入门推荐系统多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回

2020-11-30 23:17:18 355

原创推荐系统实践-新闻推荐 Task2 数据分析

零基础入门推荐系统-新闻推荐 Task2 数据分析数据预处理数据浏览数据分析总结本篇为Datawhale组队学习笔记，Datawhale推荐系统实践天池比赛地址：零基础入门推荐系统该部分内容较简单。主要记录一些不熟的数据分析操作。数据预处理transform操作#计算用户点击文章的次数，并添加新的一列counttrn_click['click_cnts'] = trn_click.groupby(['user_id'])['click_timestamp'].transform('count'

2020-11-28 09:30:27 133

原创推荐系统实践-新闻推荐 Task1 Baseline

零基础入门推荐系统-新闻推荐 Task1 Baseline数据概况：Baseline数据读取相似度计算submit部分Pandas操作总结本篇为Datawhale组队学习笔记，Datawhale推荐系统实践天池比赛地址：零基础入门推荐系统数据概况：articles_emb.csv364046 rows × 251 columns一共364046篇文章，每篇文章表示为250维的向量。articles.csv所有文章分为461个钟类，文章时间可以根据根据数的大小排序，每篇文章有字数统计tes

2020-11-25 18:14:03 329

转载推荐系统基础05：GBDT+LR

推荐系统基础05：GBDT+LR1. GBDT+LR简介2. 逻辑回归模型3. GBDT模型4. GBDT+LR模型本篇为Datawhale组队学习笔记，datawhale推荐系统基础1. GBDT+LR简介协同过滤和矩阵分解的劣势:仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。上下文包括用户访问推荐系统的时间、地点、心情等GBDT+LR：2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT

2020-10-29 17:04:06 343

原创推荐系统基础04：Wide&Deep

推荐系统基础04：Wide&Deep1. 点击率(CTR)预估简介2. FM缺点3. Wide & Deep模型的“记忆能力”与“泛化能力”4. 操作流程5. 代码实战参考资料本篇为Datawhale组队学习笔记，datawhale推荐系统基础1. 点击率(CTR)预估简介点击率预估是用来解决什么问题？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.点击率预估模型需要做什么？通过上述点击率预估的基本概念，我们

2020-10-26 21:46:06 432 1

原创推荐系统基础03：矩阵分解与FM

推荐系统基础03：矩阵分解1. 隐语义模型与矩阵分解2. 隐语义模型隐语义隐特征矩阵3.矩阵分解模型4. 矩阵分解算法的求解Basic SVDFunkSVD（又称RSVD，正则化SVD）Baseline estimates6. 编程实现本篇为Datawhale组队学习笔记，datawhale推荐系统基础1. 隐语义模型与矩阵分解为了使得协同过滤更好处理稀疏矩阵问题，增强泛化能力，从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型。在协同过滤共现矩阵的

2020-10-25 11:22:01 765

转载推荐系统基础02：协同过滤

推荐系统基础02：协同过滤1. 协同过滤算法2. 相似性度量方法杰卡德(Jaccard)相似系数余弦相似度皮尔逊相关系数3. 基于用户的协同过滤（UserCF）4. UserCF编程实现5. UserCF优缺点6. 基于物品的协同过滤7. 算法评估8. 协同过滤算法的权重改进9. 协同过滤算法的问题分析10. 总结参考资料本篇为Datawhale组队学习笔记，datawhale推荐系统基础1. 协同过滤算法基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品基于物品

2020-10-21 11:42:11 1097

转载推荐系统基础01：概述

推荐系统基础01：概述 1.什么是推荐系统？2.常用评测指标3.召回参考资料本篇为Datawhale组队学习笔记，datawhale推荐系统基础1.什么是推荐系统？推荐系统是一种信息过滤系统，用于预测用户对物品的评分或偏好。随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代。消费者想从大量信息(物品)中找到自己感兴趣的信息，信息生产者想让自己生产的信息脱颖而出从而得到关注。长尾理论（人们只关注曝光率高的项目，而忽略曝光率低的项目）可以很好的解释推荐系统的存在，试验表明位于长

2020-10-19 16:07:59 568 1

weixin_44535347的博客