![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 95
李明朔
这个作者很懒,什么都没留下…
展开
-
MLops学习
Terraform 的核心思想是将基础设施的定义与实际的基础设施状态保持同步,实现可重复、可管理的基础设施管理。GitHub Actions中的CI的主要目标是确保新的代码变更能够顺利地集成到主代码库,并且通过运行测试和其他验证步骤来确保代码质量。通过一个简单的YAML文件,可以配置应用程序的服务、网络和卷,并使用docker-compose命令启动、停止和管理整个应用程序的生命周期。通过使用不同的变量文件,你可以在不同的环境中使用相同的 Terraform 模块,使用。以下是一个简单的实例。原创 2023-12-05 05:50:42 · 856 阅读 · 0 评论 -
数据挖掘实践(金融风控)——task5:模型融合
文章目录平均1.简单平均2.加权平均投票1.简单投票2.加权投票stackingblending总结平均1.简单平均结果直接融合 求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的结果,将其进行加权融pre = (pre1 + pre2 + pre3 +...+pren )/n2.加权平均根据之前预测模型的准确率,进行加权融合,将准确性高的模型赋予更高的权重。pre = 0.3pre1 + 0.3pre2 + 0.4pre3 投票1.简单投票from xgboost原创 2020-09-25 20:43:33 · 367 阅读 · 0 评论 -
数据挖掘实践(金融风控)——task4:建模调参
文章目录模型相关原理1.逻辑回归2.决策树模型3.集成模型集成方法模型评估方法1.留出法2.交叉验证法3. 自助法4.数据集划分总结模型评价标准模型调参1.贪心调参2.网格搜索3.贝叶斯调参模型相关原理1.逻辑回归优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺失值和异常值【可参考t原创 2020-09-24 19:20:04 · 238 阅读 · 0 评论 -
数据挖掘实践(金融风控)——task3:特征工程
文章目录一.数据预处理1.缺失值填充2.时间格式处理3.对象类型特征转换到数值4.类别特征处理二.异常值处理1.方法一:均方差方法二:箱线图三.数据分桶1.固定宽度分箱2.分位数分箱3.卡方分箱及其他分箱方法的尝试四.特征交互五.特征编码1.labelEncode 直接放入树模型中2.逻辑回归等模型要单独增加的特征工程六.特征选择1.Filter:基于特征间的关系进行筛选2.Wrapper (RFE)3.Embedded一.数据预处理import pandas as pdimport numpy as原创 2020-09-21 16:06:49 · 670 阅读 · 2 评论 -
数据挖掘实践(金融风控)——task02:数据分析
文章目录1.读入数据2.总体了解3.查看数据集中特征缺失值,唯一值等1.缺失值2.唯一值4.查看特征的数值类型和对象类型5.变量分布可视化单一变量分布可视化根据y值不同可视化x某个特征的分布时间格式数据处理及查看透视图用pandas_profiling生成数据报告1.读入数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport原创 2020-09-17 20:49:18 · 449 阅读 · 0 评论 -
数据挖掘实践(金融风控)——task1:赛题理解
文章目录数据概况数据读取评估指标数据概况数据量超过120w,包含47列变量信息,其中15列为匿名变量。80万条作为训练集,20万条作为测试集A,20万条作为测试集B,变量含义如下:id 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限(year)interestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子级employmentTitle 就业职称employmentLength 就业年限(年)ho原创 2020-09-14 19:46:26 · 660 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task5 模型融合
模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。一、简单加权融合1.回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);2.分类:投票(Voting)3.综合:排序融合(Rank averaging),log融合简单加权平均,结果直接融合(回归)# test_prei 代表第i个模型的预测值test_pre1 =...原创 2020-03-26 16:02:55 · 109 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task4 建模调参
本节内容为各种模型以及模型的评价和调参策略。一、读取数据import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间def reduce_mem_usage(df): """ ...原创 2020-03-25 14:56:55 · 243 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task3 特征工程
特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等。特征构造也属于特征工程的一部分,其目的是为了增强数据的表达。常见的特征工程包括:异常处理、特征归一化/标准化、数据分桶、缺失值处理、特征构造、特征筛选、降维有些特征是匿名特征,这导致我们并不清楚特征相互直接的关联性,这时我们就只有单纯基于特征进行...原创 2020-03-24 15:25:11 · 127 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task2 数据分析
数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。1.对于数据的初步分析(直接查看数据,或.sum()...原创 2020-03-23 15:52:00 · 168 阅读 · 0 评论