学习
xxbbin
这个作者很懒,什么都没留下…
展开
-
DataWhale推荐系统实践task03-多路召回(转)
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户转载 2020-11-30 21:00:28 · 341 阅读 · 0 评论 -
DATAWHALE推荐系统竞赛-TASK02(转)
数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感导包# 导入相关包%matplotlib inlineimport pandas as pdimpo转载 2020-11-27 19:52:42 · 344 阅读 · 0 评论 -
DW-零基础入门推荐系统【赛题理解+Baseline】Task1
零基础入门推荐系统【赛题理解+Baseline】Task1赛题理解赛题简介数据概况评价方式理解赛题理解赛题简介三级目录赛题理解赛题简介赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型, 在各种比赛中, 赛题理解都是极其重要且必须走好的第一步, 今天我们就从赛题的理解出发, 首先了解一下这次赛题的概况和数据,从中分析赛题以及大致的处理方式, 其次我们了解模型评测的指标,转载 2020-11-25 22:49:46 · 270 阅读 · 0 评论 -
DATAWHALE_Task05 - GBDT+LR(转)
这里写目录标题1. GBDT+LR简介2. 逻辑回归模型3. GBDT模型4.GBDT+LR模型5.编程实践1. GBDT+LR简介前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。 而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型, 该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预测结果,转载 2020-10-30 22:58:31 · 297 阅读 · 0 评论 -
DATAWHALE-Wide&Deep-TASK04(转)
Wide&Deep1. 点击率预估简介2. 为什么不采用FM3 Wide & Deep 模 型的“记忆能力”与“泛化能力”4 操作流程5 代码实战6. 深度学习推荐系统的发展7. 源码链接1. 点击率预估简介1. 点击率预估是用来解决什么问题?点击率预估是对每次广告点击情况作出预测,可以输出点击或者不点击,也可以输出该次点击的概率,后者有时候也称为pClick.2. 点击率预估模型需要做什么?通过上述点击率预估的基本概念,我们会发现其实点击率预估问题就是一个二分类的问题,在机器学转载 2020-10-27 19:19:26 · 443 阅读 · 0 评论 -
DATAWHALE协同过滤学习-task03矩阵分解(转)
协同过滤算法学习1. 协同过滤算法2. 相似性度量方法2.1杰卡德(Jaccard)相似系数2.2余弦相似度2.3皮尔逊相关系数3. 协同过滤算法4.UserCF编程实现5.UserCF优缺点6.基于物品的协同过滤1. 协同过滤算法协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般转载 2020-10-22 23:59:30 · 197 阅读 · 0 评论 -
DATAWHALE-强化学习-TASK01(转)
强化学习task01习题强化学习的questions习题强化学习的questions习题1.强化学习的基本结构是什么答:本质上是Agent和Environment间的交互。具体地,当Agent在Environment中得到当前时刻的State,Agent会基于此状态输出一个Action。然后这个Action会加入到Environment中去并输出下一个State和当前的这个Action得到的Reward。Agent 在Environment里面存在的目的就是为了极大它的期望积累的Reward。2原创 2020-10-20 23:59:27 · 241 阅读 · 0 评论 -
DATAWHALE-推荐系统task01
推荐系统概要1.1推荐系统简介1.2常用评测指标1.3召回1.3.1 召回层在推荐系统架构中的位置及作用1.3.2 多路召回策略1.3.3 Embedding召回该文章引用于DATAWHALE教程1.1推荐系统简介1.是什么对用户:推荐系统是一种帮助用户快速发现有用信息的工具;对公司:推荐系统是一种增加公司产品与用户接触,购买等行为概率的工具。2.为什么要用推荐系统对用户:在用户需求并不十分明确的情况下进行信息的过滤,与搜索系统相比,推荐系统更多的利用用户的各类历史信息猜测其可能喜欢的内容;转载 2020-10-19 23:59:24 · 359 阅读 · 0 评论 -
DataWhale零基础金融风控-task2
Task2 数据分析2.1 学习目标2.2 内容介绍2.3 代码示例2.3.1 导入数据分析及可视化过程需要的库2.3.2 读取文件2.3.3总体了解2.3.4查看数据集中特征缺失值,唯一值等2.3.5 查看特征的数值类型有哪些,对象类型有哪些2.3.6 变量分布可视化2.3.8 用pandas_profiling生成数据报告2.4 总结该篇内容均引用自Datawhale的教程。此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流转载 2020-09-18 23:58:51 · 958 阅读 · 0 评论 -
DATAWHALE金融风控-Task1-v1.0
@ DATAWHALE金融风控-Task1DATAWHALE金融风控-Task1-v1.01.理解比赛评价指标金融风控竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。ROC(Receiver Operating Characteristic)ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。 TPR=TPTP+FNTPR = \frac{TP原创 2020-09-15 23:59:35 · 693 阅读 · 0 评论 -
DATAWHALE-NLP-TASK04
DATAWHALE-NLP 数据分析-DAY21.数据分析1.1按照教程分析2.DEV的熟悉1.数据分析1.1按照教程分析按照NLP入门教程的代码跑了一遍一、每段文字的字符数量及类别频率_ = plt.hist(train_set['text_len'], bins=200)plt.xlabel('Text char count')plt.title("Histogram of char count")label的分类严重不均匀,但这个是实际中很常见的情况,而且根据统计的频率来看,应该前原创 2020-07-22 23:59:38 · 808 阅读 · 0 评论 -
DATAWHALE 零基础入门NLP-DAY1
DATAWHALE第一天打卡第一天TFIDF+LGB后续思路第一天这两天主要还是迅速浏览了一下群里提示的方向,然后选了tfidf后再用lgb跑分类结果,但是是今晚才提交的,好像暂时没有成绩出来,等明天再看看。TFIDF+LGBTFIDF主要用的是min_df=30时跑的结果出来,而lgb用的是multiclass的LGBMClassifier,参数大多数是用默认的,num_round设置的是1000,但貌似过拟合了。。。后续思路由于基础不是太扎实,时间不太够,为了提高效率,所以我打算先把群里分享原创 2020-07-21 23:52:22 · 173 阅读 · 0 评论