自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 金融风控训练营摸模型融合学习笔记

一、学习知识点概要模型融合是比赛上分的重要手段,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升。二、学习内容平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging三、学习问题与解答学习:VotingClassifier在V

2021-05-09 21:42:03 159

原创 金融风控训练营建模与调参学习笔记

一、学习知识点概要1、金融风控领域常用的机器学习模型2、建模与调参流程二、学习内容1、逻辑回归2、树模型3、集成模型Bagging:随机森林Boosting:XGBoost、LightGBM、CatBoost4、模型对比与性能评估1、回归模型、树模型、集成模型2、模型评估方法3、模型评估结果5、模型调参1、贪心调参方法2、网络调参方法3、贝叶斯调参方法三、学习问题与解答对于数据集的划分,我们通常要保证满足以下两个条件:训练集和测试集的分布要与

2021-05-09 16:56:34 211

原创 金融风控训练营训练营之特征工程学习笔记

特征工程目的学习内容特征预处理异常值处理数据分箱特征交互特征编码特征选择目的1、学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法2、学习特征交互、编码、选择的相应方法学习内容特征预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理。首先,如果这一异常值并不代表一种规律性的,而是极其偶然的现象,或者说你并不想研究这种偶然的现象,这时可以将其删除。其次,如果异常值存在且代表了一种真实存在的现象,那

2021-05-09 14:16:17 353

原创 金融风控训练营训练营之EDA探索性数据分析学习笔记

EDA探索性数据分析目的数据了解数据总体了解:缺失值和唯一值:深入数据-查看数据类型数据间相关关系用pandas_profiling生成数据报告目的1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备数据了解数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量

2021-04-27 01:12:43 126

原创 金融风控训练营训练营之赛题理解学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.21206736.J_6684360830.26.14d8148cSWgzfo一、学习知识点概要1.1 学习目标理解赛题数据和目标,清楚评分体系。1.2 了解赛题赛题概况赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含4

2021-04-25 21:51:16 120

原创 天池——快来一起挖掘幸福感!

数据预处理‘’’寻找具有缺失值的列‘’’for i in range(data.shape[1]):if data.isnull().any()[i]==True:print(data.columns[i])(data.isnull().sum()/data.shape[0]).sort_values(ascending = False)

2021-01-09 21:16:03 279 1

原创 机器学习算法:K近邻(k-nearest neighbors)分类——天池

KNN介绍1) KNN建立过程1 给定测试样本,计算它与训练集中的每一个样本的距离。2 找出距离近期的K个训练样本。作为测试样本的近邻。3 依据这K个近邻归属的类别来确定样本的类别。2) 类别的判定①投票决定,少数服从多数。取类别最多的为测试样本类别。②加权投票法,依据计算得出距离的远近,对近邻的投票进行加权,距离越近则权重越大,设定权重为距离平方的倒数。...

2020-12-25 18:18:04 98

原创 机器学习算法:基于朴素贝叶斯的分类预测——天池

朴素贝叶斯算法(Naive Bayes, NB)NB是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。莺尾花数据集–贝叶斯分类Step1: 库函数导入#导入高斯朴素贝叶斯分类器from sklearn.naive_bayes import GaussianNBStep2: 数

2020-12-24 00:28:32 1346

原创 机器学习算法:基于逻辑回归的分类预测——天池

逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高查看其对应模型的wprint(‘the weight of Logistic Regression:’,lr_clf.coef_)查看其对应模型的w0print(‘the intercept(w0) of Logistic Regression:’,lr_clf.intercept_)可视化决策边界plt.figure()plt.scatter(x_fearures

2020-12-20 22:14:15 223

原创 零基础入门推荐系统_天池新人赛(task3)

多路召回多路召基于物品的协同过滤基于用户的协同过滤faiss使用faiss查询的原理:召回召回常用的策略:多路召就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。基于物品的协同过滤基于it

2020-12-01 15:01:28 129

原创 【飞桨PaddlePaddle】图神经网络7日打卡营心得

PGL介绍Paddle Graph Learning (PGL)是一个基于PaddlePaddle的高效易用的图学习框架。为什么学习这门课一直都在想学习图升级网络的相关知识,刚好遇到百度飞桨开了这么课,可以带我快速入门代码与理论知识,一举两得。实名制的幸运,百度这方面真心不错呀。关于图神经网络图神经网络(Graph Neural Networks,GNN),其主要可以分为五大类别分别是:图卷积网络(Graph Convolution Networks,GCN)、 图注意力网络(Graph Atte

2020-11-28 20:55:36 201

原创 零基础入门推荐系统_天池新人赛(task2)

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。**建议:**当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感...

2020-11-27 13:01:01 91

原创 零基础入门推荐系统_天池新人赛

感悟:1、对于每一个比赛,首先就要理解数据、理解赛题,从而明确完成什么任务、有什么数据可用。2、函数式编程方法越来越普遍,对于编程,要尽可能的使用函数编程,有助于提高自己的思维能力。3、DataFrame节省内存函数,在最近常常看见,需要进一步了解该函数的实现原理。...

2020-11-24 23:47:43 231 1

原创 阿里云大学人工智能学前小测验-Python测验

错题集:关于lambda说法错误的是 CA. lambda只是一个表达式B. lambda函数拥有自己的命名空间C. lambda函数可以包含多个语句D. lambda是一个简化的函数查看当前系统Python版本,下列命令正确的是 BA. python –vB. python –VC. python –versionD. python –Version下列说法正确的是 ABCA. len(list) : 获取列表元素的个数B. max(list) : 获取列表中的最大值C. m

2020-10-31 00:43:20 960

原创 【飞桨PaddlePaddle】图像分割7日打卡营心得

在参加图像分割7日打卡营过程中,每天20:30到22:00的时间段,是一次对灵魂深处不断历练的过程。课程链接:https://aistudio.baidu.com/aistudio/course/introduce/1767心得:朱欤与伍天意两位顶会论文审稿人亲自授课,从基础理论到前沿技术,配套5次实战打卡,带你入门到精通,7日攻克图像分割。深知自己真的菜,对于算法的了解与代码的实现还存在着不足。作为兴趣爱好,需要对CV领域进行全面的学习与了解。通过本次的课程,对自己的学习路线有了一定的了解。图像分

2020-10-26 11:38:11 120

原创 Python基础入门:从变量到异常处理(Task04-宝可梦数据分析)——天池

小技巧查看Top10缺失值.sort_values()missing_value_df.sort_values(by=‘percent_missing’, ascending=False).head(10)查看各代口袋妖怪的数量.value_counts()df[‘generation’].value_counts().plot.bar()

2020-09-20 05:40:11 131

原创 Python基础入门:从变量到异常处理(Task03-函数、lambda表达式)——天池

1.函数1.1.函数的定义函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname (parameters):“函数_文档字符串”function_suitereturn [expression]1.2.函数的调用【例子】def printme(str):print(str)printme(“我要调用用户自定义函数!

2020-09-12 20:51:48 162

原创 Python基础入门:从变量到异常处理(Task02-4集合、序列)——天池

5.集合Python 中set与dict类似,也是一组key的集合,但不存储value。由于key不能重复,所以,在set中,没有重复的key。注意,key为不可变类型,即可哈希的值。【例子】num = {}print(type(num)) # <class ‘dict’>num = {1, 2, 3, 4}print(type(num)) # <class ‘set’>5.1. 集合的创建先创建对象再加入元素。在创建空集合的时候只能使用s = set(),因

2020-09-11 23:34:23 77

原创 Python基础入门:从变量到异常处理(Task02-3字符串、字典)——天池

3.字符串3.1. 字符串的定义Python 中字符串被定义为引号之间的字符集合。Python 支持使用成对的 单引号 或 双引号。Python 的常用转义字符转义字符 描述\ 反斜杠符号’ 单引号" 双引号\n 换行\t 横向制表符(TAB)\r 回车【例子】 三引号允许一个字符串跨多行,字符串中可以包含换行符、制表符以及其他特殊字符。para_str = “”“这是一个多行字符串的实例多行字符串可以使用制表符TAB ( \t )。也可以使用换行符 [ \n ]。“””

2020-09-10 22:25:07 119

原创 Python基础入门:从变量到异常处理(Task02-2元组)——天池

2.元组「元组」定义语法为:(元素1, 元素2, …, 元素n)小括号把所有元素绑在一起逗号将每个元素一一分开2.1. 创建和访问一个元组Python 的元组与列表类似,不同之处在于tuple被创建后就不能对其进行修改,类似字符串。元组使用小括号,列表使用方括号。元组与列表类似,也用整数来对它进行索引 (indexing) 和切片 (slicing)。注意点:1、创建元组可以用小括号 (),也可以什么都不用,为了可读性,建议还是用 ()。2、元组中只包含一个元素时,需要在元素后面添加逗号

2020-09-08 22:10:18 239

原创 Python基础入门:从变量到异常处理(Task02-1列表)——天池

1.列表x = [0 for i in range(5)]print(x, type(x))[0, 0, 0, 0, 0] <class ‘list’>x = [i for i in range(100) if (i % 2) != 0 and (i % 3) == 0]print(x, type(x))[3, 9, 15, 21, 27, 33, 39, 45, 51, 57, 63, 69, 75, 81, 87, 93, 99] <class ‘list’>1.1

2020-09-07 22:13:41 953

原创 Python基础入门:从变量到异常处理(Task01-三天内容)——天池

Python基础入门:从变量到异常处理(第1天)操作符操作符 名称 示例in 存在 ‘A’ in [‘A’, ‘B’, ‘C’]not in 不存在 ‘h’ not in [‘A’, ‘B’, ‘C’]is 是 “hello” is “hello”not is 不是 “hello” is not “hello”注意点:is与==的区别注意:is, is not 对比的是两个变量的内存地址==, != 对比的是两个变量的值比较的两个变量,指向的都是地址不可变的类型(str等),那么is

2020-09-06 21:57:10 221

原创 来自母校的明信片

PaddleHUb创意赛前提:用来两天的时间实现的,有些地方还没有修改。主要是五一要出去,远离网络。所以,就这样吧。灵感:临近毕业,来自母校的一封明显片。正面为彩色,表示当下的校园生活。背面为黑白两色,表示学校的历史,有校徽、校训和学校的成立时间,最后加了“前程似锦”这样的祝愿。提示:1、自己需要在work/people下添加抠图的数据2、增加了school=str(inpu...

2020-04-29 18:24:25 413

原创 百度飞桨训练营心得

百度飞桨7天心得试错成本敢于尝试勇于尝试七天挑战试错成本敲代码的过程中,只有犯错才可以改错。现阶段遇见的很多问题,都可以通过百度来解决,所以,试错成本并不大。我所要说的就是,细心与心细。会减少很多不必要的错误。自己自以为有点编程基础,所以在细节上会犯很多本不应该的错误。所以,踏实点吧。敢于尝试百度Paddle是一个全新的框架,从个人来说,其部分代码高度集成,调用极为方便。只不过需要对参数...

2020-04-28 11:02:26 549

原创 李宏毅机器学习之Recurrent Neural Network

应用举例:slot filling(空值填充),以买票系统为例当出现Destination时会出现相关的地址名,当出现time of arrival时会出现时间。有记忆功能的神经网络,就是RNN。1.1 常用编码方式1.2 介绍RNN其实现过程为:step1:假设所以神经元权重为1,偏差为0。所以的激活函数为线性的。1.3 RNN的变体形式Elman Netw...

2019-08-22 17:18:53 206

原创 李宏毅深度学习之集成学习

1.bagging没有顺序的。bagging是将单个函数的结果进行average(回归)或voting(分类),当在model很复杂的情况下,担心过拟合问题,可以做bagging。1.1容易过拟合的模型1.1.1decision tree(决策树)1.1.2随机森林(Random Forest)随机森林是决策树在bagging方法下的应用。2.Boosting是有顺序的。...

2019-08-20 18:44:01 3311 1

原创 李宏毅_机器学习之异常检测

1.什么是异常检测(Anomaly Detection)让机器知道你不知道。注,用上标表示一个完整的东西,用下标表示完整东西的一部分。其实现对异常的检测,异常不代表就是不好的东西,只是找和训练资料不同的东西。1.1 介绍及应用1.2 介绍是否就是二分类呢?答案是否定的,这是因为1、对于异常数据的收集远没有收集正常数据那么简单;2、对于异常的现象有些场景中并不能群举出。这就造成异常检测...

2019-08-01 09:55:28 613

原创 李宏毅_深度学习之CNN(Convolutional Neural Network)

1.CNN介绍1.1CNN的用途step1:通过判断鸟嘴这一部分图片来判断是不是是鸟类。step2:两种鸟类公用一个神经元来进行判断,而不用两个不同的神经元。step3:图像的缩放,将奇数行偶数列像素去除,进行缩放。1.2 CNN网络架构不同层实现的功能不同:2.CNN介绍2.1 卷积层Convolution layer2.1.1 卷积层每一个filter(矩阵)中...

2019-08-01 00:07:58 191

原创 数据分析_用户流失三步走

1.前期准备代码实现导入库:读取数据:数据审计查看数据类型缺失值填充特征转换GBDTLR交叉检验,样本均衡LR建模与预测部署与落地...

2019-07-30 19:04:34 284

原创 李宏毅_深度学习之BP网络

BP(Back Propagation)网络梯度下降无法在神经网络中大量参数的情况下进行寻优。如何在上百万维的数据下,有效的计算出来,就需要BP网络。链式法则(chain rule)原理先考虑某一个神经元:链式法则的应用:case1BP网络就是向后往前算偏微分总结...

2019-07-30 17:36:08 369

原创 李宏毅_深度学习

0深度学习三步走1.神经网络1.1全连接前馈神经网络network的运行方式: 矩阵运算输入input为[1 -1]的转置,权重w为二维矩阵,当经过sigmoid函数后为[0.98 0.12]的转置。1.2 Deep的含义深度指很多层,目前关于具体多少层才成为深度还没有明确定义,一般认为大于3层以上的隐藏层成为深度。1.3神经网络Neural Network简单来说,神...

2019-07-30 16:31:58 142

转载 李宏毅_机器学习之逻辑回归

1.逻辑回归与线性回归的比较2.判别模型(discrimination)与生成模型(generative)比较3.逻辑回归

2019-07-28 12:39:30 146

原创 李宏毅-深度学习之分类

这里写自定义目录标题1.分类任务介绍1.1 分类任务举例1.2 怎么完成分类2.分类任务实现2.1概率模型2.1.1 摸球试验2.1.2最大最小似然(max-min likelihood)2.2 模型改进3.总结1.分类任务介绍1.1 分类任务举例1.2 怎么完成分类方法1:可以使用回归函数完成分类。更加直观的表示为:相应的理想模型为:2.分类任务实现2.1概率模型2.1...

2019-07-22 15:07:14 199

原创 李宏毅_深度学习之线性回归误差来源

1.期望与方差1.1期望

2019-07-21 16:46:17 317

原创 李宏毅-深度学习之梯度下降

回归算法的应用1.梯度下降(Gradient Descent)1.1什么是梯度下降梯度下降算法(随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD))都需要对于每一个参数都用相同的学习率进行更新。但是在实际应用中,各个参数的重要性肯定是不一样的,所以我们对于不同的参数要动态的采取不同的学习率,让目标函数更快的收敛。1.1.1自适应学习率(Adaptive Le...

2019-07-21 15:52:53 217

原创 python_PyInstaller库

1.PyInstaller库它是python的第三方库,需要使用pip install 进行安装,其作用是用于打包函数,使其在没有python环境下运行。1.1 使用1.2 常用参数1.3 实例...

2019-07-20 10:58:43 176

原创 python_time库

1.time库基本情况time库是处理时间的python标准库用法:import timetime.<包>(模块 )1.1时间获取1.1.1 time()1.1.2 ctime()1.1.3 gmtime()1.2时间格式化是将时间以合理的方式进行展示的方法1.2.1 strftime()1.2.2 strptime()1.3程序计时应用1.3...

2019-07-19 15:58:01 151

原创 数据分析(一)核心思维

1.三种核心思维1.1结构化一般从内部与外部(自身与其他)进行分析。1.2公式化1.3业务化1.3.1分析贴合业务有没有从业务角度分析思考是否真正的分析出了原因能都将分析结果落地1.3.2 换位思考如果我是其中的参与者,我会怎么想、怎么做。总的来说,就是:...

2019-07-18 18:14:18 101

原创 数据分析(二)思维技巧

1.数据的思维技巧1.1象限法人为的划分象限进行分析1.2多维法1.3假设法假设法的应用场景适用于数据太少或者缺失的情景下。1.4指数法常用方法有:线性加权、反比例和log法。1.5二八法1.6对比法1.7漏斗法2.锻炼思维技巧2.1好奇心2.2练习2.2.1 生活2.2.2 工作2.2.3 反思...

2019-07-18 18:13:48 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除