深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记

最新推荐文章于 2022-02-23 11:26:37 发布

BlackSheepX

最新推荐文章于 2022-02-23 11:26:37 发布

阅读量182

点赞数 1

分类专栏：比赛班思路文章标签：比赛思路特征 pandas 数据

本文链接：https://blog.csdn.net/xujiaqi1574587/article/details/99085233

版权

比赛班同时被 2 个专栏收录

4 篇文章 1 订阅

订阅专栏

思路

2 篇文章 0 订阅

订阅专栏

文章目录

作业视频3

作业视频3

得到数据后的思路：

数据明确后就要看到是个什么问题
对于要预测的值，连续值做回归，离散值做预测
哪些算法可以做这个问题(回归/分类)慢慢积累
- 回归：线性回归，决策树，SVM
- 分类：线性回归，决策树，SVM
要用的算法(线性回归)要什么样的数据才可以用上
- 线性回归：数值型数据
数据中是否含有字符串或者缺失值，如何将它们变为数值型
数据特征工程的思路，数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割
- EDA(*):一键生成数据报表
- 特征选择：特征参数过多不利于计算，容易过拟合，需要做选择
- 特征组合：特征之间有所联系可以组合成一个较综合的特征
- 特征分割：类似于One-hot编码
算法的选择
- Xgb(Xgboost)
- Lgb(Lightgbm)
- ANN(Adaboost)

观察比赛信息

Overview(总览)

Name: House Prices: Advanced Regression Techniques（房价：高级回归技术）
Goal: predict the sales price for each house – predict the value of the SalePrice variable（预测测试集中的SalePrice变量）
Metric(评估方式)：Root-Mean-Squared-Error(RMSE,均方根误差)(取log意味着在预测贵和便宜的房子的时候误差对结果的影响相同)
Submission File Format(提交文件格式)：Id, SalePrice各一列

Data(数据)

File descriptions:下载下来的所有数据的描述
- train.csv - 训练集 size: 1459x81
- test.csv - 测试集 size: 1459x80
- dara_description.txt - 对于(训练集的)每一列的描述
- sample_submission.csv - 提交样本 size: 1459x2
Data fields:对于每个特征都是什么意思

代码实践

New code knowledge

# 读取csv文件
filename = pd.read_csv("filename.csv")

# 探索文件数据的前五行
filename.head()

# 用于探索性数据分析
import pandas_profiling as ppf

# 简要报告
ppf.ProfileReport(filename)

Overview of ppf.ProfileReport

Dataset info

Dataset info	数据集信息
Number of variables	变量的数量	81
Number of observations	观察值的数量	1460
Total Missing(%)	缺失值总占比	5.9%
Total size in memory	总内存大小	924.0KiB
Average record size in memory	平均记录内存大小	648.1B

Variables types

Variables types	变量类型
Numeric	数值型	38
Categorical	类别型	43
Boolean	布尔型	0
Data	日期型	0
Text(Unique)	文本型(特殊)	0
Rejected	不合格类型	0
Unsupported	不支持类型	0

Warnings (含缺失值项)

蓝色标签Zeros 和灰色标签Missing分别代表了零值(0)和缺失值(NaN)

Variables

Numeric(数值型数据)

Toggle(简介):

Distinct count 非重复条目数
- Unique(%) 非重复条目占总条目数百分比
- Missing(% / n) 缺失值(百分比/个数)
- Infinite(% / n) 无穷量(百分比/个数)
- Mean 平均值
Minimum 最小值
Maximum 最大值
Zeros(%) 零值

Details:

Statistics(统计)

Quantile statistics	分位数统计	Descriptive statistics	描述性统计
Minimum	最小值	Standard deviation	标准(偏)差
5-th percentile	第5%个数	coef(ficient) of variation	变异系数¹
Q1	第25%个数	Kurtosis	峰度²
Median(Q2)	中位数	Mean	平均值
Q3	第75%个数	MAD	平均绝对偏差³
95-th percentile	第95%个数	skewness	偏态
Maximum	最大值	Sum	和
Range	范围(max -min)	Variance	方差
Interquartile range	四分位范围	Memory size	内存大小

Histogram(柱状图)

Histogram

X ——  数值范围
Y ——  Frequency(这个范围的数值出现的频率)

Common Values(共同值)

Common values

出现频率最高的数的前十个数值，次数(n)和频率(%)

Extreme Values(极端值)

Extreme values

选取最大和最小各五个值并记录它们的次数和频率

Categorical(类别型数据)

Toggle:

Distinct count 非重复条目数
Unique(%) 非重复条目占总条目数百分比
Missing(%) 缺失值百分比
Missing(n) 缺失值数
图表内容：由多到少前三个值，剩余(非缺失)值，缺失值

Details:

一张表格，所有非缺失值逐项列举数量以及占总条目比，缺失值统一列举

Correlations(相关性)

以Pearson和Spearman两个相关系数描述各个特征间的相关度，由蓝到红越来越相关

From	Video
Data	2019-08-09~10
OS	Windows 10
State	Energetic
Author	BlackSheepX

就此写完，今天有新的任务要做，新人写笔记欢迎指点和交流，欢迎+vx:xjq1305936314(备注CSDN最好了不然我容易想不起来)
也祝深度之眼越办越好?一个全凭自觉的平台
_{(另外买课和vip的同学加我可以给你优惠哦?)}

比较两组相差较大或者量纲不同的数据时，变异系数可以消除量纲影响，也是反应数据离散程度的绝对值，公式：c_v=σ/μ (标准差 / 平均值) ↩︎
中心矩 $\mu_{k}=\mathrm{E}\left[(X-\mathrm{E}[X])^{k}\right]=\int_{-\infty}^{+\infty}(x-\mu)^{k} f(x) d x$ , 其中求得μ₄后，峰值γ² =μ₄/ σ⁴-3，多个数据的峰值 $\operatorname{Kurt}\left(\sum_{i=1}^{n} X_{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Kurt}\left(X_{i}\right)$ ↩︎
$D=\frac{1}{n} \sum_{i=1}^{n}\left|x_{i}-m(x)\right|$ ，是所有单个观测值与算术平均值的偏差的绝对值的平均 ↩︎