深度之眼比赛实战班第一场比赛作业1.3 | 个人笔记

作业视频3

得到数据后的思路:

  1. 数据明确后就要看到是个什么问题
    对于要预测的值,连续值做回归,离散值做预测

  2. 哪些算法可以做这个问题(回归/分类)慢慢积累

    • 回归:线性回归,决策树,SVM
    • 分类:线性回归,决策树,SVM
  3. 要用的算法(线性回归)要什么样的数据才可以用上

    • 线性回归: 数值型数据
  4. 数据中是否含有字符串或者缺失值,如何将它们变为数值型

  5. 数据特征工程的思路,数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割

    • EDA(*):一键生成数据报表
    • 特征选择:特征参数过多不利于计算,容易过拟合,需要做选择
    • 特征组合:特征之间有所联系可以组合成一个较综合的特征
    • 特征分割:类似于One-hot编码
  6. 算法的选择

    • Xgb(Xgboost)
    • Lgb(Lightgbm)
    • ANN(Adaboost)

观察比赛信息

Overview(总览)

  • Name: House Prices: Advanced Regression Techniques(房价:高级回归技术)
  • Goal: predict the sales price for each house – predict the value of the SalePrice variable(预测测试集中的SalePrice变量)
  • Metric(评估方式):Root-Mean-Squared-Error(RMSE,均方根误差)(取log意味着在预测贵和便宜的房子的时候误差对结果的影响相同)
  • Submission File Format(提交文件格式):Id, SalePrice各一列

Data(数据)

  • File descriptions:下载下来的所有数据的描述
    • train.csv - 训练集 size: 1459x81
    • test.csv - 测试集 size: 1459x80
    • dara_description.txt - 对于(训练集的)每一列的描述
    • sample_submission.csv - 提交样本 size: 1459x2
  • Data fields:对于每个特征都是什么意思

代码实践

New code knowledge

# 读取csv文件
filename = pd.read_csv("filename.csv")

# 探索文件数据的前五行
filename.head()

# 用于探索性数据分析
import pandas_profiling as ppf

# 简要报告
ppf.ProfileReport(filename)

Overview of ppf.ProfileReport

Dataset info
Dataset info数据集信息
Number of variables变量的数量81
Number of observations观察值的数量1460
Total Missing(%)缺失值总占比5.9%
Total size in memory总内存大小924.0KiB
Average record size in memory平均记录内存大小648.1B

Variables types
Variables types变量类型
Numeric数值型38
Categorical类别型43
Boolean布尔型0
Data日期型0
Text(Unique)文本型(特殊)0
Rejected不合格类型0
Unsupported不支持类型0

Warnings (含缺失值项)

零值缺失值
蓝色标签Zeros 和 灰色标签Missing分别代表了零值(0)和缺失值(NaN)


Variables
Numeric(数值型数据)

Toggle(简介):

  • Distinct count 非重复条目数

    • Unique(%) 非重复条目占总条目数百分比
    • Missing(% / n) 缺失值(百分比/个数)
    • Infinite(% / n) 无穷量(百分比/个数)
    • Mean 平均值
  • Minimum 最小值

  • Maximum 最大值

  • Zeros(%) 零值


Details:

  • Statistics(统计)
    Quantile statistics分位数统计Descriptive statistics描述性统计
    Minimum最小值Standard deviation标准(偏)差
    5-th percentile第5%个数coef(ficient) of variation变异系数1
    Q1第25%个数Kurtosis峰度2
    Median(Q2)中位数Mean平均值
    Q3第75%个数MAD平均绝对偏差3
    95-th percentile第95%个数skewness偏态
    Maximum最大值Sum
    Range范围(max -min)Variance方差
    Interquartile range四分位范围Memory size内存大小
  • Histogram(柱状图)

Histogram

X ——  数值范围
Y ——  Frequency(这个范围的数值出现的频率)
  • Common Values(共同值)

Common values

出现频率最高的数的前十个数值,次数(n)和频率(%)
  • Extreme Values(极端值)

Extreme values

选取最大和最小各五个值并记录它们的次数和频率

Categorical(类别型数据)

Toggle:

  • Distinct count 非重复条目数
  • Unique(%) 非重复条目占总条目数百分比
  • Missing(%) 缺失值百分比
  • Missing(n) 缺失值数
  • 图表内容: 由多到少前三个值,剩余(非缺失)值,缺失值

Details:

一张表格,所有非缺失值逐项列举数量以及占总条目比,缺失值统一列举


Correlations(相关性)

PearsonSpearman两个相关系数描述各个特征间的相关度,由蓝到红越来越相关


FromVideo
Data2019-08-09~10
OSWindows 10
StateEnergetic
AuthorBlackSheepX

就此写完,今天有新的任务要做,新人写笔记欢迎指点和交流,欢迎+vx:xjq1305936314(备注CSDN最好了不然我容易想不起来)
也祝深度之眼越办越好?一个全凭自觉的平台
(另外买课和vip的同学加我可以给你优惠哦?)


  1. 比较两组相差较大或者量纲不同的数据时,变异系数可以消除量纲影响,也是反应数据离散程度的绝对值,公式:cv=σ/μ (标准差 / 平均值) ↩︎

  2. 中心矩 μ k = E [ ( X − E [ X ] ) k ] = ∫ − ∞ + ∞ ( x − μ ) k f ( x ) d x \mu_{k}=\mathrm{E}\left[(X-\mathrm{E}[X])^{k}\right]=\int_{-\infty}^{+\infty}(x-\mu)^{k} f(x) d x μk=E[(XE[X])k]=+(xμ)kf(x)dx, 其中求得μ4后,峰值γ24/ σ4-3,多个数据的峰值 Kurt ⁡ ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n Kurt ⁡ ( X i ) \operatorname{Kurt}\left(\sum_{i=1}^{n} X_{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Kurt}\left(X_{i}\right) Kurt(i=1nXi)=n21i=1nKurt(Xi) ↩︎

  3. M A D = 1 n ∑ i = 1 n ∣ x i − m ( x ) ∣ M A D=\frac{1}{n} \sum_{i=1}^{n}\left|x_{i}-m(x)\right| MAD=n1i=1nxim(x) ,是所有单个观测值与算术平均值的偏差的绝对值的平均 ↩︎

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值