机器学习
weixin_43848117
这个作者很懒,什么都没留下…
展开
-
金融风控训练营摸模型融合学习笔记
一、学习知识点概要模型融合是比赛上分的重要手段,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升。二、学习内容平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/bagging三、学习问题与解答学习:VotingClassifier在V原创 2021-05-09 21:42:03 · 159 阅读 · 0 评论 -
金融风控训练营建模与调参学习笔记
一、学习知识点概要1、金融风控领域常用的机器学习模型2、建模与调参流程二、学习内容1、逻辑回归2、树模型3、集成模型Bagging:随机森林Boosting:XGBoost、LightGBM、CatBoost4、模型对比与性能评估1、回归模型、树模型、集成模型2、模型评估方法3、模型评估结果5、模型调参1、贪心调参方法2、网络调参方法3、贝叶斯调参方法三、学习问题与解答对于数据集的划分,我们通常要保证满足以下两个条件:训练集和测试集的分布要与原创 2021-05-09 16:56:34 · 211 阅读 · 0 评论 -
金融风控训练营训练营之特征工程学习笔记
特征工程目的学习内容特征预处理异常值处理数据分箱特征交互特征编码特征选择目的1、学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法2、学习特征交互、编码、选择的相应方法学习内容特征预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理。首先,如果这一异常值并不代表一种规律性的,而是极其偶然的现象,或者说你并不想研究这种偶然的现象,这时可以将其删除。其次,如果异常值存在且代表了一种真实存在的现象,那原创 2021-05-09 14:16:17 · 353 阅读 · 0 评论 -
金融风控训练营训练营之EDA探索性数据分析学习笔记
EDA探索性数据分析目的数据了解数据总体了解:缺失值和唯一值:深入数据-查看数据类型数据间相关关系用pandas_profiling生成数据报告目的1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备数据了解数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量原创 2021-04-27 01:12:43 · 126 阅读 · 0 评论 -
金融风控训练营训练营之赛题理解学习笔记
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.21206736.J_6684360830.26.14d8148cSWgzfo一、学习知识点概要1.1 学习目标理解赛题数据和目标,清楚评分体系。1.2 了解赛题赛题概况赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含4原创 2021-04-25 21:51:16 · 120 阅读 · 0 评论 -
天池——快来一起挖掘幸福感!
数据预处理‘’’寻找具有缺失值的列‘’’for i in range(data.shape[1]):if data.isnull().any()[i]==True:print(data.columns[i])(data.isnull().sum()/data.shape[0]).sort_values(ascending = False)原创 2021-01-09 21:16:03 · 279 阅读 · 1 评论 -
机器学习算法:K近邻(k-nearest neighbors)分类——天池
KNN介绍1) KNN建立过程1 给定测试样本,计算它与训练集中的每一个样本的距离。2 找出距离近期的K个训练样本。作为测试样本的近邻。3 依据这K个近邻归属的类别来确定样本的类别。2) 类别的判定①投票决定,少数服从多数。取类别最多的为测试样本类别。②加权投票法,依据计算得出距离的远近,对近邻的投票进行加权,距离越近则权重越大,设定权重为距离平方的倒数。...原创 2020-12-25 18:18:04 · 98 阅读 · 0 评论 -
机器学习算法:基于朴素贝叶斯的分类预测——天池
朴素贝叶斯算法(Naive Bayes, NB)NB是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。莺尾花数据集–贝叶斯分类Step1: 库函数导入#导入高斯朴素贝叶斯分类器from sklearn.naive_bayes import GaussianNBStep2: 数原创 2020-12-24 00:28:32 · 1346 阅读 · 0 评论 -
机器学习算法:基于逻辑回归的分类预测——天池
逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高查看其对应模型的wprint(‘the weight of Logistic Regression:’,lr_clf.coef_)查看其对应模型的w0print(‘the intercept(w0) of Logistic Regression:’,lr_clf.intercept_)可视化决策边界plt.figure()plt.scatter(x_fearures原创 2020-12-20 22:14:15 · 223 阅读 · 0 评论 -
零基础入门推荐系统_天池新人赛(task3)
多路召回多路召基于物品的协同过滤基于用户的协同过滤faiss使用faiss查询的原理:召回召回常用的策略:多路召就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。基于物品的协同过滤基于it原创 2020-12-01 15:01:28 · 129 阅读 · 0 评论 -
李宏毅机器学习之Recurrent Neural Network
应用举例:slot filling(空值填充),以买票系统为例当出现Destination时会出现相关的地址名,当出现time of arrival时会出现时间。有记忆功能的神经网络,就是RNN。1.1 常用编码方式1.2 介绍RNN其实现过程为:step1:假设所以神经元权重为1,偏差为0。所以的激活函数为线性的。1.3 RNN的变体形式Elman Netw...原创 2019-08-22 17:18:53 · 206 阅读 · 0 评论 -
李宏毅-深度学习之梯度下降
回归算法的应用1.梯度下降(Gradient Descent)1.1什么是梯度下降梯度下降算法(随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD))都需要对于每一个参数都用相同的学习率进行更新。但是在实际应用中,各个参数的重要性肯定是不一样的,所以我们对于不同的参数要动态的采取不同的学习率,让目标函数更快的收敛。1.1.1自适应学习率(Adaptive Le...原创 2019-07-21 15:52:53 · 217 阅读 · 0 评论 -
李宏毅_深度学习之线性回归误差来源
1.期望与方差1.1期望原创 2019-07-21 16:46:17 · 317 阅读 · 0 评论 -
李宏毅_深度学习之BP网络
BP(Back Propagation)网络梯度下降无法在神经网络中大量参数的情况下进行寻优。如何在上百万维的数据下,有效的计算出来,就需要BP网络。链式法则(chain rule)原理先考虑某一个神经元:链式法则的应用:case1BP网络就是向后往前算偏微分总结...原创 2019-07-30 17:36:08 · 369 阅读 · 0 评论 -
李宏毅-深度学习之分类
这里写自定义目录标题1.分类任务介绍1.1 分类任务举例1.2 怎么完成分类2.分类任务实现2.1概率模型2.1.1 摸球试验2.1.2最大最小似然(max-min likelihood)2.2 模型改进3.总结1.分类任务介绍1.1 分类任务举例1.2 怎么完成分类方法1:可以使用回归函数完成分类。更加直观的表示为:相应的理想模型为:2.分类任务实现2.1概率模型2.1...原创 2019-07-22 15:07:14 · 199 阅读 · 0 评论 -
李宏毅_机器学习之异常检测
1.什么是异常检测(Anomaly Detection)让机器知道你不知道。注,用上标表示一个完整的东西,用下标表示完整东西的一部分。其实现对异常的检测,异常不代表就是不好的东西,只是找和训练资料不同的东西。1.1 介绍及应用1.2 介绍是否就是二分类呢?答案是否定的,这是因为1、对于异常数据的收集远没有收集正常数据那么简单;2、对于异常的现象有些场景中并不能群举出。这就造成异常检测...原创 2019-08-01 09:55:28 · 613 阅读 · 0 评论 -
李宏毅_深度学习之CNN(Convolutional Neural Network)
1.CNN介绍1.1CNN的用途step1:通过判断鸟嘴这一部分图片来判断是不是是鸟类。step2:两种鸟类公用一个神经元来进行判断,而不用两个不同的神经元。step3:图像的缩放,将奇数行偶数列像素去除,进行缩放。1.2 CNN网络架构不同层实现的功能不同:2.CNN介绍2.1 卷积层Convolution layer2.1.1 卷积层每一个filter(矩阵)中...原创 2019-08-01 00:07:58 · 191 阅读 · 0 评论 -
李宏毅_机器学习之逻辑回归
1.逻辑回归与线性回归的比较2.判别模型(discrimination)与生成模型(generative)比较3.逻辑回归转载 2019-07-28 12:39:30 · 146 阅读 · 0 评论 -
李宏毅深度学习之集成学习
1.bagging没有顺序的。bagging是将单个函数的结果进行average(回归)或voting(分类),当在model很复杂的情况下,担心过拟合问题,可以做bagging。1.1容易过拟合的模型1.1.1decision tree(决策树)1.1.2随机森林(Random Forest)随机森林是决策树在bagging方法下的应用。2.Boosting是有顺序的。...原创 2019-08-20 18:44:01 · 3311 阅读 · 1 评论 -
李宏毅_深度学习
0深度学习三步走1.神经网络1.1全连接前馈神经网络network的运行方式: 矩阵运算输入input为[1 -1]的转置,权重w为二维矩阵,当经过sigmoid函数后为[0.98 0.12]的转置。1.2 Deep的含义深度指很多层,目前关于具体多少层才成为深度还没有明确定义,一般认为大于3层以上的隐藏层成为深度。1.3神经网络Neural Network简单来说,神...原创 2019-07-30 16:31:58 · 142 阅读 · 0 评论