数据科学导论复习

第一章 绪论

[基本内容]

1.1 为什么要研究/学习数据科学

1.2 数据科学的基本概念

维基百科——应用科学的方法、流程、算法和系统从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科
在这里插入图片描述

1.3 数据科学基本流程和数据流

在这里插入图片描述
在这里插入图片描述
[基本要求]
1.掌握:数据科学的基本概念
2.理解:数据科学基本流程和数据流
3.了解:学习/研究数据科学的目的与意义



第二章 问题与目标

[基本内容]

2.1 用户层面的问题与目标

2.2 数据科学层面的问题与目标

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

[基本要求]
1.掌握:用户层面与数据科学层面的问题与目标分别怎么确定
2.理解:数据科学的问题与目标的含义



第三章 数据获取

[基本内容]

3.1 前提假设与数据方案设计

3.2 总体与抽样

样本的两个必要条件:

  1. 容量不能太小(>30)
  2. 无偏抽样(抽样的过程不受个体性质的影响)

3.3混杂因素和 A/B Testing

辛普森悖论
现象描述: 每个分组里面A的优势都明显,但是总体上B的优势更大。
原因: 混杂因素
就是说,有些因素会对分组的总体造成影响,但是必须认识到这一点,只要适当剔除就可以了。
在这里插入图片描述

[基本要求]
1.掌握:数据获取的常用方法
2.理解:前提假设与数据方案设计、总体与抽样、混杂因素和 A/B Testing 的含义



第四章 Python基础

numpy.ndarray 的内存方式优于列表,通常适用于类型一致的数据,支持向量运算

DataFrame基础知识 具体参考DataFrame的使用方法

reshape方法可以重塑数组的维度 reshape()函数详解

#例4-4-9
import pandas as pd
import numpy as np
my_dataframe=pd.DataFrame(np.random.randn(4,5),index=['a','b','c','d'],columns=['A','B','C','D','E'])

my_dataframe[['B','C']]  
my_dataframe[['B']]  #指定访问列2,返回值有列标题,返回值仍是dataframe
my_dataframe['B']    #指定访问列3,返回值无列标题,返回值是序列series
my_dataframe.iloc[1]  #指定访问行1,指定行号
my_dataframe.loc['b']  #指定访问行2,指定行索引


第五章 探索性数据分析

[基本内容]

5.1数据检查

print(my_data.info())  #datdaframe的info方法可以返回对数据的一些总结
x = my_data.groupby(['Pclass'])   #groupby分类获取数据

5.2数据预处理

缺失处理

data.head(10)   #显示数据前10行,不填默认为5

data.isnull()  #检测数据缺失值,返回True或False(缺失)
data.isnull().sum()  #统计缺失值
  • 缺失值丢弃
data.dropna(axis=0)  #行丢弃  (丢弃包含NaN的数据)
data.dropna(axis=1)  #列丢弃
  • 缺失值填充
#字典填充
mean_Age = int(my_data[['Age']].mean()[0])  #取平均年龄
my_dict = {'Age':mean_Age,'Cabin':'haha'}
data1 = data.fillna(my_dict)

#邻近值填充
data2 = data.fillna(method = 'ffill')
#参数method = 'ffill'  缺失值之前最有效的邻近值来填充
#method = 'bfill'  缺失值之后最有效的邻近值来填充

异常处理

冗余处理

data.duplicated()  #duplicated()函数判断是否有重复行,返回true或false
data1 = data.drop_duplicates()  #drop_duplicates()函数直接删除重复行

线性相关分析: Dataframe.corr(method=’pearson’)求线性相关系数,当其接近1或-1,则说明两个数据存在强的线性相关或反相关,有较大冗余;等于0,则没有线性相关。

data.corr(method = 'person')

corr函数详细说明

5.3 描述性统计

位置性测度

#例5-3-3 Pandas数据框求位置性测度举例
import pandas as pd
import numpy as np
data = pd.read_csv("Titanic.csv")
print('对Fare的位置性测度统计结果:')
print('均值: ',        data[['Fare']].mean()[0])
print('中位数: ',      data[['Fare']].median()[0])
print('第25百分位数:', data[['Fare']].quantile(q = 0.25)[0])
print('众数: ',        data[['Fare']].mode().values[0,0])
#mean(),median(),quantile()返回的都是Pandas的series的序列结构,直接用[0]访问
# mode()返回的是DataFrame的结构,所以用二维数组[0,0]的方式来访问

离散型测度

print('对Fare的离散性测度统计结果:')
print('变化范围: [',data[['Fare']].min()[0],'\t',data[['Fare']].max()[0], ']')
print('极差:    ',data[['Fare']].max()[0] - data[['Fare']].min()[0])
print('方差:    ',data[['Fare']].var()[0])
print('标准差:  ',data[['Fare']].std()[0])
print('变异系数:',data[['Fare']].std()[0] / data[['Fare']].mean()[0])

图形化描述性统计

  • 直方图
data[['Fare']].hist(bins=40,figsize=(18,5),xlabelsize=16,ylabelsize=16)

直方图详细用法

  • 箱型图
    在这里插入图片描述
data[['Fare']].boxplot()

箱型图详细用法

  • 散点图
scatterplot = pd.plotting.scatter_matrix(data,alpha = 0.3,figsize = (10,10),
                                    diagonal = 'hist',color = colors,marker ='o',grid=True)
# alpha表示透明度
# diagonal = "hist" 选择显示对应特征的直方图
# color =   可以设置颜色
# marker ='o'  散点图案
# grid=True   显示坐标线                              

散点图详细用法

[基本要求]

1.掌握:探索性数据分析的常用方法与一般流程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.理解:数据检查、数据预处理与描述性统计的主要含义



第六章 建模与性能评价

[基本内容]

6.1 统计建模

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


代码展示与说明:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

部分代码解析——回归/朴素贝叶斯/决策树/K-means

6.2 回归模型

6.3 朴素贝叶斯模型

6.4 分类模型的性能评价

6.5 决策树

决策树学习

6.6 有监督学习模型与无监督学习模型

K-means学习

6.7 偏差-方差权衡

6.8 参数的网格搜索

6.9 集成学习

[基本要求]
1.掌握:数据科学常用的建模与性能评价的方法;
2.理解:统计建模、回归模型、朴素贝叶斯模型、决策树及典型的机器学习模型;
3.了解:偏差-方差权衡、参数的网格搜索与集成学习

第七章 结果展示

[基本内容]

7.1 面向不同对象的结果展示

7.2 数据可视化

在这里插入图片描述

[基本要求]
1.掌握:数据可视化的一般方法;
2.理解:如何根据面向对象的不同进行结果展示;

  • 19
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CMCJR

新手小白,如有不当,敬请指正!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值