08-机器学习语言必备-数据科学必备库

机器学习语言必备-数据科学必备库

1.Pandas介绍

  • Pandas是panel data面板数据,Pandas及处理结构化数据的利器,利用python数据以及数据结构完成对结构化数据的处理和分析功能。

2.Series数据结构详解

  • Series=index:value
  • 根据index完成value的值的打印
  • 创建:可以根据list、tuple、dict、set等方式进行创建,指定index的值,查询的时候根据index查询value的值,删除和更新的操作也是使用index查询value的值。
  • 属性:
    • shape、index、values、head、unique、size、dtype属性或函数

3.Pandas-DataFrame详解

  • dataframe是数据框?
  • 处理二维以上数据组织形式
  • pd.DataFrame方式进行定义,指定row或列columns
  • 增删改查部分操作
  • iloc和loc方法(掌握)
    • iloc-index
    • loc直接根据i列名和行的名字进行打印

4.Pandas的对齐运算

  • 对齐操作,对于多个值的求和或加减乘除问题的求解方法
  • add(变量,fill_value)
  • 对于Series和DataFrame均适用

5.Pandas的函数应用

  • fillna
  • dropna
  • isnull
  • drop(labels,axis-0 or1)
  • pandas:sort_index

6.层次索引

  • 指定多层索引
  • 如何查询,df 外层索引
  • 如何交换内外层索引:swaplevel
  • 如何进行索引重排序:sortlevel

7.Pandas统计计算和描述

  • describtion描述信息
    • count
    • min
    • max
    • std
    • var
  • 统计计算一定需要按照行or列进行计算

8.Pandas读取文件(掌握)

  • Pandas读取文件函数read_csv(file,sep="")
  • 对数据采用基础属性信息查看
  • ndim、shape、dtype、info()
  • 数据处理—ix\iloc\loc\drop\。。。。。

9.Pandas函数补充(1)

  • to_pickle()转化为pickle文件
  • cut对连续型数值离散化
  • concat方法按照行或列进行合并
  • to_numberic函数

10.Pandas函数补充(2)

  • 聚合操作
  • print(data.groupby(by=["one"])["two"].mean()) #等价写法
    print(data["two"].groupby(by=data["one"]).mean())
    

11.Pandas函数补充(3)

  • 总结:
    • 总结Pandas的基本语法
    • 读取数据
    • 对数据尽心处理
    • 保存回到原理

12.Pandas函数补充(5)

13.Pandas数据处理案例一个简单的电影推荐系统

  • 推荐系统之前数据预处理

14.Matplotlib&Seaborn数据可视化库

  • Matplotlib是2D绘图库
  • Seaborn是Maplotlib的上层的绘图库,只需要执行几行代码就可以执行
  • import matplotlib.pyplot as plt
  • plt.plot绘制直线图或折线图
  • plt.show进行展示图形

15.Matplotlib入门案例

  • 版本通过version进行输出
  • 如果需要保存图片话,需要使用saveig直接给定名字绑定
  • 如果想使用中文在标题上进行输出,需要指定u“标题内容”,fontproperties=“simhei”

16.figure对象及多图绘制

  • 多图的绘制依赖于创建多个figure对象
  • ax1=fig.add_subplot(111) #1行1列的第一个图形
  • ax2=fig2.add_subplot(111)
  • add_subplot(222) #2行2列的第2个图形

17.figure对象子图创建

  • figure对象通过使用add_subplot方法进行图像绘制
  • plt.subplot(2,2,1)方法进行图像的绘制—plt.sca(ax1)

18.Matplotlib各种图形的绘制实战

  • 散点图scatter
  • 直方图hist
  • 箱线图boxplot绘制
  • 饼状图pie
  • 折线图plot方式

19.Matplotlib网格Grid实战

  • grid网格–设置网格的颜色,设置网格的线条类型,设置网格的线条宽度等

20.Matplotlib图例的用法

  • lenged用于指示图片的类型
  • plt.legend或ax1.legend方式进行

21.Matplotlib颜色、标记、线型说明

  • 通常在图片中会指定图的颜色color,标记marker,线条linestyle
  • “r–"----red,–虚线—显式指定:color=red,linestyle=”–“
  • 面向对象和面向过程区分
  • plt.title()-----ax1.set_title()

22.Matplotlib综合案例分析

  • 面向对象和面向过程
  • plt.title ax1.set_title()
  • plt.xlim ax1.set_xlim()
  • plt.legend ax1.legend()
  • 绘制图像的时候一定要加上标题、x和y轴坐标、legend图例

23.Seaborn绘图实战(1)

  • seaborn绘图
  • import matplotlib.pyplot as plt
  • import seaborn as sns
  • sns.boxplot绘制图形,hue选项含义参考那个参数
  • sns.relplot绘制图形
  • sns.指定不同方法

24.Seaborn绘图实战(2)

  • 通过seaborn获取绘图信息
  • 解决泰坦尼克号的获救问题—女性较男性获救概率更高,头等仓位比其他仓位获救概率较高
  • sns.catplot
  • 只要指定x和y的数据就可以进行图形展示

25.Scipy了解

  • Scipy是基于numpy之上可以实现科学计算、工程计算】图形图像处理、fft等形式
  • 数学上定积分、求解多项式、导数等问题均可求解
  • 重点详述了Scipy中的sparse矩阵中的svds矩阵分解
  • 利用svds和eigs等进行矩阵分解,从而实现矩阵分解方式的推荐系统

26.Sklearn了解

  • 包含机器学习各种算法,目前集成了
    • 分类
    • 回归
    • 聚类
    • 降维
    • 特征工程
  • 以线性回归的例子为例展开
    • 求解机器学习模型问题—机器学习参数的求解问题
    • 使用fit方法训练模型
    • 使用predict方法进行预测
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值