自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 推荐系统 - 新闻推荐入门之排序模型+模型融合

排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型 LGB的分类模型 深度学习的分类模型DIN得到了最终的排序模型输出的结果之后,还选择了两种比较经典的模型集成的方法:输出结果加权融合 Staking(将模型的输出结果再使用一个简单模型进行预测)DIN的全称是Deep Interest Network, 这是阿里2018年基于前面的深度学习模型无法表达用户多样化的兴趣而提出的一个模型, 它可以通过考虑【给定的候选广告】和【用户的历史行为】的相关性,来计算用户兴趣的表示.

2020-12-06 23:22:07 286

原创 推荐系统 - 新闻推荐入门之特征工程

提取文章和用户的特征工程,转化为监督学习任务1、word2vec:主要思想是一个词的上下文可以很好的表达出词的语义。通过无监督学习产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbow。skip-gram:已知中心词预测周围词,cbow:已知周围词预测中心词。2、当数据集不均衡时,可以进行负采样我们可以先对负样本进行下采样,下采样的目的一方面缓解了正负样本比例的问题,另一方面也减小了我们做排序特征的压力3、用户历史行为相关特征对于该用户的每个召回商品,

2020-12-02 21:21:27 218

原创 推荐系统 - 新闻推荐入门多路召回

1、多路召回,多使用新闻推荐算法中所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以使用多种不同的策略来获取用户排序的候选商品集合,而具体使用哪些召回策略其实是与业务强相关的 ,针对不同的任务就会有对于该业务真实场景下需要考虑的召回规则。例如新闻推荐,召回规则可以是“热门视频”、“导演召回”、“演员召回”、“最近上映“、”流行趋势“、”类型召回“等等。2、在一般的推荐系统比赛中读取数据部分主要分为三种模式, 不同的.

2020-11-30 22:00:30 248

原创 推荐系统 - 新闻推荐入门02任务

1、学习分析数据,分析每个字段的含义及特点train_click_log.csv文件数据中每个字段的含义如下所示:user_id: 用户的唯一标识 click_article_id: 用户点击的文章唯一标识 click_timestamp: 用户点击文章时的时间戳 click_environment: 用户点击文章的环境 click_deviceGroup: 用户点击文章的设备组 click_os: 用户点击文章时的操作系统 click_country: 用户点击文章时的所在的国家 c

2020-11-27 22:15:39 154

原创 推荐系统 - 新闻推荐入门

1、学习规则

2020-11-22 20:19:41 286

原创 数据挖掘实战之金融风控第五课:模型融合

1、常用模型融合方法:stacking: 构建多层模型,并利用预测结果再拟合预测。 blending: 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。 stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如下图 假设有五个基学习器,将数据带入五基学习器中得到预测结果,再带入模型六中进行训练预测。但是由于直接由五个基学习器获得结果直接带入模型六中,容易导致过拟合。所以在使用五个及模型进行预测的时候,可以考虑使用K折验证,防止过拟合。

2020-09-27 23:15:13 174

原创 数据挖掘实战之金融风控第四课:建模与调参

一、常用算法及优缺点介绍逻辑回归优点:简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响缺点:不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;决策树优点:简单直观,生成的决策树可以可视化展示,数据不需要预处理,不需要归一化,不需要处理缺失数据缺点:决策树算法非常容易过拟合,导致泛化能力不强二、集成方法主要包括Bagging和Boosting。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型

2020-09-24 22:31:30 136 1

原创 数据挖掘实战之金融风控第二课:特征工程

1、学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法2、比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。常用方法:2.1缺失值填充:一般填为0,2.2针对string特征,转化为数值特征或者时间特征。2.3类别特征,可以labelencode2.4异常值处理:当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理。要分析规律,如果实在分

2020-09-21 21:50:23 159

原创 数据挖掘实战之金融风控第二课:探索性数据分析

1、读取文件:data = pd.read_csv()data.shape查看文件的行和列data_train.columns查看数据列名data_train.info()查看每列的基本信息,数据类型data_train.describe()查看类别的统计特征 (data_train.isnull().sum()/len(data_train)).to_dict()查看数据的缺失值查看训练集测试集中特征属性只有一值的特征one_value_fea = [col for c

2020-09-18 22:26:18 199

原创 数据挖掘实战之金融风控第一课:赛题理解

第一步:下载ananconda,并安装python环境第二步:分析赛题数据:共有47个特征ID 唯一标识,没有用数值特征(12个):loanAmnt贷款金额、interestRate贷款利率、installment分期付款金额、employmentTitle就业职称(行业相关?)、annualIncome年收入、dti债务收入比、openAcc借款人信用档案中未结信用额度的数量、pubRec贬损公共记录的数量、revolBal信贷周转余额合计、revolUtil循环额度利用率、tota.

2020-09-15 22:42:36 485

原创 python学习第八课:datetime模块及文件系统

1、datetime 是 Python 中处理日期的标准模块,它提供了 4 种对日期和时间进行处理的类:datetime、date、time和timedelta。2、timedelta表示具体时间实例中的一段时间。你可以把它们简单想象成两个日期或时间之间的间隔。如果将两个 datetime 对象相减,就会得到表示该时间间隔的 timedelta 对象。同样地,将两个时间间隔相减,可以得到另一个 timedelta 对象。3、打开文件:open(file, mode='r', buffe...

2020-08-05 23:02:57 162

原创 python学习第七课:类、对象、魔法方法、模块

1、对象=属性+方法2、python的魔法方法:类有一个名为__init__(self[, param1, param2...])的魔法方法,该方法在类实例化时会自动调用。Python 的self相当于 C++ 的this指针。3、在 Python 中定义私有变量只需要在变量名或函数名前加上“__”两个下划线,那么这个函数或变量就会为私有的了。...

2020-08-02 16:47:11 115

原创 python学习第六课:函数与Lambda表达式

1、函数也是一个对象,可以当成变量。即参数是函数,返回值也是函数。2、Python 的函数具有非常灵活多样的参数形态,既可以实现简单的调用,又可以传入非常复杂的参数。Python 允许函数调用时参数的顺序与声明时不一致,因为 Python 解释器能够用参数名匹配参数值。3. 参数组合在 Python 中定义函数,可以用位置参数、默认参数、可变参数、命名关键字参数和关键字参数,这 5 种参数中的 4 个都可以一起使用,但是注意,参数定义的顺序必须是:位置参数、默认参数、可变参数和关键字参数

2020-08-02 16:29:36 171

原创 python学习第五课:字典集合及序列

1、判断是否可变类型数值、字符和元组 都能被哈希,因此它们是不可变类型。 列表、集合、字典不能被哈希,因此它是可变类型。2、字典的定义dict内部存放的顺序和key放入的顺序是没有关系的。 dict查找和插入的速度极快,不会随着key的增加而增加,但是需要占用大量的内存。dict.copy()返回一个字典的浅复制。3、集合set,里面的key为不可变类型,即可哈希的值从结果发现集合的两个特点:无序 (unordered) 和唯一 (unique)。由于set存储的...

2020-07-28 00:03:34 143

原创 Python学习第四课:列表元组字符串

1、列表:用[,]常用创建方法:range,推导式list存储的是对象,x = [a] * 4操作中,只是创建4个指向list的引用,所以一旦a改变,x中4个a也会随之改变。注意append(增加)和extend(扩展)的区别2、元组:用(,)元组里面可以放多种类型的元素,一般不会修改,【例子】元组有不可更改 (immutable) 的性质,因此不能直接给元组的元素赋值,但是只要元组中的元素可更改 (mutable),那么我们可以直接更改其元素,注意这跟赋值其元素不同。元组大小和

2020-07-25 15:41:36 68

原创 Python学习第三课:异常处理

1、多用断言assert,有个断言异常AssertionError:断言语句(assert)失败2、try except 处理异常try: 检测范围except Exception[as reason]: 出现异常后的处理代码3、try: 检测范围except Exception[as reason]: 出现异常后的处理代码finally: 无论如何都会被执行的代码try: 检测范围except(Exception1[.

2020-07-24 23:43:23 191

原创 python学习第二课:条件循环结构

位运算知识点:异或操作1、条件循环操作:if,elif,else常考知识点:assert,前提条件,如果这个条件不满足就抛出异常。assert这个关键词我们称之为“断言”,当这个关键词后边的条件为 False 时,程序自动崩溃并抛出AssertionError的异常。2、循环条件:while 和 while elsefor a in []for else常用于循环中的有以下几个:range([start,] stop[, step=1])enumerate(...

2020-07-23 21:10:55 102

原创 python学习第一课:变量、运算符与数据类型

怎样对python中的代码进行注释? python有哪些运算符,这些运算符的优先级是怎样的? python 中is,is not与==,!=的区别是什么? python 中包含哪些数据类型?这些数据类型之间如何转换?1、注释用#或者'''2、有一元、二元、三元运算符 一元运算符优于二元运算符。3、is, is not 对比的是两个变量的内存地址 ==, != 对比的是两个变量的值4、有int、str、bool、float等转换为整型int(x...

2020-07-22 22:51:25 211

转载 如何编写一个shell脚本

本文结合大量实例阐述如何编写一个shell脚本。  为什么要进行shell编程  在Linux系统中,虽然有各种各样的图形化接口工具,但是sell仍然是一个非常灵活的工具。Shell不仅仅是命令的收集,而且是一门非常棒的编程语言。您可以通过使用shell使大量的任务自动化,shell特别擅长系统管理任务,尤其适合那些易用性、可维护性和便携性比效率更重要的任务。  下面,让我们一起来看看shell是

2017-08-24 20:38:36 2490 1

原创 我的第一片博客

开始学习ing,从头再来

2017-08-24 19:23:26 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除