- 博客(7)
- 收藏
- 关注
原创 天池比赛-特征工程
特征工程数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(选做作业)特征编码one-hot编码label-encode编码特征选择1 Filter2 Wrapper (RFE)3 Embedded1. 导入包并读取数据
2020-09-21 19:40:35 209
原创 Task2 数据分析
Task2 数据分析1. 内容介绍数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告2. 代码示例2.1 导入数据分析及可视化过程需要的库import
2020-09-16 19:04:18 372
原创 Task1 赛题理解
1. 数据概况一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。train.csvid 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限(year)interestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子级employmentTitle 就业职称emplo
2020-09-15 20:54:10 528
原创 task3-SVM
支持向量机(SVM)原理及介绍支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其优美的理论保证和利用核函数对于线性不可分问题的处理技巧, 在上世纪90年代左右,SVM曾红极一时。 本文将不涉及非常严格和复杂的理论知识,力求于通过直觉来感受 SVM。支持向量机介绍我们常常会碰到这样的一个问题,首先给你一些分属于两个类别的数据import numpy as npimport matplotl
2020-08-26 17:39:35 199 1
原创 决策树模型原理及实践
决策树模型1、决策树原理及介绍1.1 决策树介绍决策树是一种常见的分类模型,在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先看男方是否有房产,如果有房产再看是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。决策树的主要优点:具有很好的解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。决策树的主要缺点:
2020-08-22 20:54:38 1278
原创 taks1-Logistic regression
逻辑回归逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而言,最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高逻辑回归原理简介当z≥0 时,y
2020-08-20 20:14:15 225
原创 有约束条件的加权最小二乘的实现
@[TOC] 有约束条件的加权最小二乘的实现加权最小二乘原理详细见网址:加权最小二乘法Python实现import numpy as npimport pandas as pdfrom scipy.optimize import minimizeclass Constrained_regression: def __init__(self, weight = None, intercept = True): """ 默认选择最小二乘
2020-08-14 11:42:33 2254 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人