文章目录
作业视频3
得到数据后的思路:
-
数据明确后就要看到是个什么问题
对于要预测的值,连续值做回归,离散值做预测 -
哪些算法可以做这个问题(回归/分类)慢慢积累
- 回归:线性回归,决策树,SVM
- 分类:线性回归,决策树,SVM
-
要用的算法(线性回归)要什么样的数据才可以用上
- 线性回归: 数值型数据
-
数据中是否含有字符串或者缺失值,如何将它们变为数值型
-
数据特征工程的思路,数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割
- EDA(*):一键生成数据报表
- 特征选择:特征参数过多不利于计算,容易过拟合,需要做选择
- 特征组合:特征之间有所联系可以组合成一个较综合的特征
- 特征分割:类似于One-hot编码
-
算法的选择
- Xgb(Xgboost)
- Lgb(Lightgbm)
- ANN(Adaboost)
观察比赛信息
Overview(总览)
- Name: House Prices: Advanced Regression Techniques(房价:高级回归技术)
- Goal: predict the sales price for each house – predict the value of the SalePrice variable(预测测试集中的SalePrice变量)
- Metric(评估方式):Root-Mean-Squared-Error(RMSE,均方根误差)(取log意味着在预测贵和便宜的房子的时候误差对结果的影响相同)
- Submission File Format(提交文件格式):Id, SalePrice各一列
Data(数据)
- File descriptions:下载下来的所有数据的描述
- train.csv - 训练集 size: 1459x81
- test.csv - 测试集 size: 1459x80
- dara_description.txt - 对于(训练集的)每一列的描述
- sample_submission.csv - 提交样本 size: 1459x2
- Data fields:对于每个特征都是什么意思
代码实践
New code knowledge
# 读取csv文件
filename = pd.read_csv("filename.csv")
# 探索文件数据的前五行
filename.head()
# 用于探索性数据分析
import pandas_profiling as ppf
# 简要报告
ppf.ProfileReport(filename)
Overview of ppf.ProfileReport
Dataset info
Dataset info | 数据集信息 | |
---|---|---|
Number of variables | 变量的数量 | 81 |
Number of observations | 观察值的数量 | 1460 |
Total Missing(%) | 缺失值总占比 | 5.9% |
Total size in memory | 总内存大小 | 924.0KiB |
Average record size in memory | 平均记录内存大小 | 648.1B |
Variables types
Variables types | 变量类型 | |
---|---|---|
Numeric | 数值型 | 38 |
Categorical | 类别型 | 43 |
Boolean | 布尔型 | 0 |
Data | 日期型 | 0 |
Text(Unique) | 文本型(特殊) | 0 |
Rejected | 不合格类型 | 0 |
Unsupported | 不支持类型 | 0 |
Warnings (含缺失值项)
蓝色标签Zeros 和 灰色标签Missing分别代表了零值(0)和缺失值(NaN)
Variables
Numeric(数值型数据)
Toggle(简介):
-
Distinct count 非重复条目数
- Unique(%) 非重复条目占总条目数百分比
- Missing(% / n) 缺失值(百分比/个数)
- Infinite(% / n) 无穷量(百分比/个数)
- Mean 平均值
-
Minimum 最小值
-
Maximum 最大值
-
Zeros(%) 零值
Details:
-
Statistics(统计)
Quantile statistics 分位数统计 Descriptive statistics 描述性统计 Minimum 最小值 Standard deviation 标准(偏)差 5-th percentile 第5%个数 coef(ficient) of variation 变异系数1 Q1 第25%个数 Kurtosis 峰度2 Median(Q2) 中位数 Mean 平均值 Q3 第75%个数 MAD 平均绝对偏差3 95-th percentile 第95%个数 skewness 偏态 Maximum 最大值 Sum 和 Range 范围(max -min) Variance 方差 Interquartile range 四分位范围 Memory size 内存大小
X —— 数值范围
Y —— Frequency(这个范围的数值出现的频率)
出现频率最高的数的前十个数值,次数(n)和频率(%)
选取最大和最小各五个值并记录它们的次数和频率
Categorical(类别型数据)
Toggle:
- Distinct count 非重复条目数
- Unique(%) 非重复条目占总条目数百分比
- Missing(%) 缺失值百分比
- Missing(n) 缺失值数
- 图表内容: 由多到少前三个值,剩余(非缺失)值,缺失值
Details:
一张表格,所有非缺失值逐项列举数量以及占总条目比,缺失值统一列举
Correlations(相关性)
以Pearson和Spearman两个相关系数描述各个特征间的相关度,由蓝到红越来越相关
From | Video |
---|---|
Data | 2019-08-09~10 |
OS | Windows 10 |
State | Energetic |
Author | BlackSheepX |
就此写完,今天有新的任务要做,新人写笔记欢迎指点和交流,欢迎+vx:xjq1305936314(备注CSDN最好了不然我容易想不起来)
也祝深度之眼越办越好?一个全凭自觉的平台
(另外买课和vip的同学加我可以给你优惠哦?)
比较两组相差较大或者量纲不同的数据时,变异系数可以消除量纲影响,也是反应数据离散程度的绝对值,公式:cv=σ/μ (标准差 / 平均值) ↩︎
中心矩 μ k = E [ ( X − E [ X ] ) k ] = ∫ − ∞ + ∞ ( x − μ ) k f ( x ) d x \mu_{k}=\mathrm{E}\left[(X-\mathrm{E}[X])^{k}\right]=\int_{-\infty}^{+\infty}(x-\mu)^{k} f(x) d x μk=E[(X−E[X])k]=∫−∞+∞(x−μ)kf(x)dx, 其中求得μ4后,峰值γ2 =μ4/ σ4-3,多个数据的峰值 Kurt ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n Kurt ( X i ) \operatorname{Kurt}\left(\sum_{i=1}^{n} X_{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Kurt}\left(X_{i}\right) Kurt(∑i=1nXi)=n21∑i=1nKurt(Xi) ↩︎
M A D = 1 n ∑ i = 1 n ∣ x i − m ( x ) ∣ M A D=\frac{1}{n} \sum_{i=1}^{n}\left|x_{i}-m(x)\right| MAD=n1∑i=1n∣xi−m(x)∣ ,是所有单个观测值与算术平均值的偏差的绝对值的平均 ↩︎