自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 5.天池金融风控-贷款违约预测新人赛之模型融合

模型融合就是将两个或多个模型进行融合,主要的方法有以下几种方法:平均法简单平均法加权平均法投票法简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging(在Task4中已经提及,就不再赘述)Blending与stacking的不同stackingstacking中由于两层使用的数据

2020-09-27 16:48:47 386

原创 天池金融风控-贷款违约预测新人赛之建模调参

在完成第三部分的特征工程之后,我们认为我们已经获得了想要的并且标准的数据,接下来就可以将数据放到合适的模型算法之中来训练模型,通过调整模型的参数来使得模型更健壮,这一部分主要做的就是建模及调整参数。这一部分的学习分为两个部分,一个是金融风控常用的机器学习模型的学习,第二个是这些模型的实际应用与调参。1.机器学习算法的学习1.1Logistic回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。这一部分我们通过以下五个点来了解这个算法,分别

2020-09-24 17:25:44 655

原创 3.天池金融风控-贷款违约预测新人赛之特征工程

第三部分主要是对数据做特征工程,这也是影响数据挖掘模型好坏的非常重要的一步。我们的学习目标有:1.学习数据的预处理,包括特征的预处理、缺失值和异常值的处理、数据分桶等2. 学习特征交互、编码、选择的相应方法1.数据预处理第一步先导入我们需要的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tq

2020-09-21 13:08:55 2665 1

原创 2.天池金融风控-贷款违约预测新人赛之数据分析

前一部分我们对一些分类指标等一些预备知识进行了学习,接下来我们要进行的是探索性的数据分析(EDA)。EDA是我们进行数据挖掘非常重要的一步,做的好的EDA可以让我们对数据作出更准确的分析,一方面是让我们了解整个数据集,包括缺失值,异常值,变量间的练习等,另一方面也是为我们之后的特征工程做好准备。1.数据的总体了解,缺失值,唯一值#导入需要的库import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.p

2020-09-14 12:55:17 663

原创 机器学习实战之朴素贝叶斯

在学习了朴素贝叶斯理论之后,我们在这一部分将进行代码的实战,主要参考的材料也是《机器学习实战》这本书。1.使用朴素贝叶斯进行文档分类利用机器学习的知识对文档进行分类是一个很重要的应用。思路主要是将每个词出现或者不出现作为一个特征,这样特征数目就和词汇表中的数目一样多,在对其进行分析。朴素贝叶斯的一般过程:(1)收集数据:任何可收集到的方法。(这里用RSS源数据)(2)准备数据:数据类型要是数值或者布尔型(3)分析数据:大量特征时,绘制特征作用不大,直接用直方图效果更好(4)训练算法:计算不同的

2020-09-12 14:29:21 125

原创 1.天池金融风控-贷款违约预测新人赛之预备知识

比赛链接:金融风控-贷款违约预测因为这是一个金融风控专题的数据挖掘实战,在开始之前先引入一些预备知识。1.预备知识1.1预测指标本次竞赛用AUC作为评价指标,AUC为ROC曲线下与坐标轴围成的面积大小。分类算法常见的评估指标混淆矩阵(confused matrix)1.若一个实例为正类,预测也为正类,则为真正类TP(True Positive)2.若一个实例为正类,预测也为负类,则为假负类FN(False Negative)3.若一个实例为负类,预测也为正类,则为假正类FP(False

2020-09-11 16:31:57 293

原创 统计学习方法之朴素贝叶斯法

朴素贝叶斯目录朴素贝叶斯4.1朴素贝叶斯的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯的参数估计4.2.1极大似然估计4.2.2学习与分类算法4.2.3贝叶斯估计4.3总结朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。该方法简单,预测效率高,但由于特征条件独立假设条件较强,会损失一定的准确率。4.1朴素贝叶斯的学习与分类4.1.1基本方法输入空间:X⊆Rn\mathcal{X}\subseteq\R^nX⊆Rn,输出空间:Y={c1,c2,...,cK}

2020-09-11 13:43:26 150

原创 算法学习之查找1

查找11.查找表首先考虑的是基本的数据结构第一类: 查找有无–set元素’a’是否存在,通常用set:集合set只存储键,而不需要对应其相应的值。set中的键不允许重复第二类: 查找对应关系(键值对应)–dict元素’a’出现了几次:dict–>字典dict中的键不允许重复第三类: 改变映射关系–map通过将原有序列的关系映射统一表示为其他算法应用-leetcode练习leetcode349。两个数组的交集class Solution: def intersecti

2020-08-26 11:54:22 232

原创 算法学习之动态规划

动态规划主要思想若要解一个给定问题,我们需要解其不同部分(即子问题),再根据子问题的解以得出原问题的解。动态规划往往用于优化递归问题,例如斐波那契数列,如果运用递归的方式来求解会重复计算很多相同的子问题,利用动态规划的思想可以减少计算量。动态规划法仅仅解决每个子问题一次,具有天然剪枝的功能,从而减少计算量,一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。动态规划模板步骤:确定动态规划状态写出状态转移方程(画出状态转移表)考虑初始化条件考虑输出状态

2020-08-22 15:33:42 119

原创 算法学习之分治算法

分治算法1.主要思想和步骤主要思想:分治算法主要思想就是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。再将子问题逐个解决,再将解决的子问题合并,最后,算法会总结原问题的答案。步骤:分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题);治:这些规模更小的子问题逐个击破;合:将已解决的子问题逐层合并,最终得出原问题的解;分治算法适用的情况:原问题的计算复杂度随着问题的规模的增加而增加。原问题能够被分解成更小的子问题。子问题的结构和性质与原问题一样,并且

2020-08-19 17:06:20 93

原创 Python基础之类与对象

DataWhale-Python基础-11.类与对象1.对象= 属性+方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模版创建对象。类不但包括方法定义,而且还包括所有实例共享的数据。封装:信息隐蔽技术我们可以用关键字class定义Python的类,关键字后面紧跟类的名称,分号和类的实现。#例子class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' w

2020-08-04 14:29:41 154

原创 Python基础之函数与Lambda表达式

DataWhale-Python基础-10.函数与lambda表达式1.函数1.1函数的定义函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。 def functionname(parameters): "函数_文档字符串" function_suite return [expression]1.2

2020-07-31 15:26:59 196

原创 Python基础之序列

DataWhale-Python基础-9.序列在Python中,序列类型包括字符串,列表,元组,集合,字典,这些序列支持一些通用的操作,比较特殊的是集合和字典,它们不支持索引,切片,相加相乘的操作。1.序列的内置函数list():把一个可迭代的对象转换成列表的方法tuple():把一个可迭代的对象转换成元组的方法str(obj):把一个obj对象转换成字符串的方法len():返回对象的长度max():返回对象的最大值min():返回对象的最小值sum(iterable[,start =

2020-07-30 16:36:14 130

原创 Python基础之集合

DataWhale-Python基础-8.集合1.集合的创建先创建对象再加入元素在创建空集合的时候只能用s=set(),因为s={}创建的是空字典直接把一对元素用花括号括起来{元素1,元素2,…,元素N}重复的元素在set中会被自动过滤。使用set(value)工厂函数,把列表或元组转换成集合。#空集合的创建与添加basket = set() # 创建空集合不能用{}因为会被认为是字典,所有用set()basket.add('apple')basket.add('banana')b

2020-07-30 16:09:27 124

原创 Python基础之字典

DataWhale-Python基础-7.字典1.字典的定义字典是无序的 键:值(key:value)对集合,键必须是互不相同的(在同一个字典之内)。dict 内部存放的顺序和 key 放入的顺序是没有关系的。dict 查找和插入的速度极快,不会随着 key 的增加而增加,但是需要占用大量的内存。字典 定义语法为 {元素1, 元素2, …, 元素n}其中每一个元素是一个「键值对」-- 键:值 (key:value)关键点是「大括号 {}」,「逗号 ,」和「冒号 :」大括号 – 把所有元

2020-07-29 12:30:48 85

原创 Python基础之字符串

DataWhale-Python基础-6.字符串1.字符串的定义Python中字符串被定义为引号之间的字符集合,引号可以是单引号也可以是双引号Python常用的转义字符符号表示\反斜杠’单引号"双引号\n换行\t横向制表符\r回车#转义符的应用print('let\'s go') # let's goprint("let's go") # let's goprint('C:\\now') # C:\nowp

2020-07-28 22:32:02 81

原创 5.元组

DataWhale-Python基础-5.元组元组(tuple)的形式:(元素1,元素2,…,元素N)它是由小括号括起来的元素之间用,来间隔1.创建与访问一个元组首先我们来看一下元组和列表的异同:元组用小括号,数组用中括号tuple创建之后不能被修改,list可以都可以用整数来进行索引和切片操作t1 = (1, 10.31, 'python')t2 = 1, 10.31, 'python'print(t1, type(t1))# (1, 10.31, 'python') &

2020-07-28 20:58:58 505

原创 4.Python基础之列表

DataWhale-Python基础-4.列表接下来我们将学习Python的容器数据类型,今天学习的内容是列表。1.列表的定义列表是有序集合,没有固定大小,能保存任意数量任意类型的Python对象。2.列表的创建#直接创建x = [1,2,3,4]print(x,type(x))#[1, 2, 3, 4] <class 'list'>#利用range创建x = list(range(10))print(x,type(x))#[0, 1, 2, 3, 4, 5, 6, 7

2020-07-25 10:19:41 503

原创 3.Python基础之-异常处理

DataWhale-Python基础-3.异常处理异常指的是运行代码时检测到的错误。计算机对可能遇到对异常定义了异常类型,若某种错误引发对应对异常,那么异常处理系统就会启动,从而恢复程序对正常运行。1.Python标准异常汇总BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值

2020-07-24 10:43:07 162

原创 循环语句

DataWhale-Python基础-3.循环语句1.while循环while语句的形式while condition: codeblockwhile语句会一直循环到condition为False时。#猜数字游戏(利用循环多次玩)num = 8 #这是我要猜的数字count = 0while count < 3: print("你有"+str(3 - count)+"次机会") temp =int(input("请输入0-10之间的数字")) if temp

2020-07-23 14:56:36 106

原创 2.Python基础之条件语句

DataWhale-Python基础-2.条件语句1.if语句if语句的形式:if expression: expr_true_suiteif语句的expr_true_suite代码块只有当条件expression结果为真时才执行,否则将继续执行紧跟在代码块后面语句而不执行这个expr_true_suite。单个if语句中的expression条件可以通过and,or,not等布尔操作符来实现多重条件判断。if 2 > 1 and not 2 > 3: print("判

2020-07-22 15:42:33 124

原创 位运算

6.运算符6.1原码、反码和补码二进制有三种不同的表示形式:原码、反码和补码,计算机内部使用补码来表示原码:就是二进制的表示(注意,最高位是符号位)。00 00 00 11 -> 310 00 00 11 -> -3反码:正数的反码就是原码,负数的反码是符号位不变,其余位取反(对应正数按位取反)。00 00 00 11 -> 311 11 11 00 -> -3补码:正数的补码就是原码,负数的补码是反码+1。00 00 00 11 -> 311 11

2020-07-22 12:44:17 152

原创 1.变量,运算符与数据类型

DataWhale-Python基础-1.变量,运算符与数据类型1.注释注释的两种方法:1.第一种是用“#”:可以注释掉某一行2.第二种是“”“”“”和‘’‘’‘’ 这种方法可以注释掉某一段(区间注释)2.运算符2.1算数运算符操作符名称示例输出+加1+12-减2-11*乘3*412/除3/40.75//地板除3//40%取余3%43**幂2**382.2比较运算符操作符名称

2020-07-21 15:22:21 152

原创 统计学习方法笔记第二章-感知机

统计学习方法笔记第二章-感知机2.1 感知机模型2.2感知机学习策略2.2.1数据集的线性可分型2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机算法的原始形式感知机的介绍:感知机是一个二分类的线性分类模型,输入为特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数(lost function),利用梯度下降法对损失函数进行极小化,求得

2020-05-23 16:31:13 226 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除