利用Python进行数据分析笔记－pandas建模(Patsy篇)

最新推荐文章于 2024-08-05 17:42:48 发布

wuzlun

最新推荐文章于 2024-08-05 17:42:48 发布

阅读量1.2w

点赞数 5

分类专栏：数据分析利用Python进行数据分析文章标签：利用Python进行数据分析

本文链接：https://blog.csdn.net/wuzlun/article/details/80287583

版权

本文主要记录了利用Patsy进行数据分析的过程，包括Patsy公式的数据变换和Categorical数据的处理。介绍了如何进行数据的标准化和中心化，以及如何处理Categorical数据以避免共线性问题。同时，探讨了在Patsy中如何使用非数值型数据，并展示了如何通过C函数将数值型列转换为类型列。

摘要由CSDN通过智能技术生成

跟着教程学习了一段时间数据分析，越学感觉坑越多。于是花了一个星期仔细看了下《利用Python进行数据分析》。写在这里主要是记录下，方便自己查看。

import numpy as np
import pandas as pd
import patsy

# 利用Patsy创建模型描述 Patsy是一个python库，用于描述统计模型（尤其是线性模型），方法是通过一个叫做公式语法（formula syntax）的字符串来描述。这种公式语法的灵感来源于R和S语言中的公式语法。 Patsy的公式是有特殊格式的字符串，像下面这样： y ~ x0 + x1 这种a + b的语法并不代表将a和b相加，而是代表为模型创建的设计矩阵的术语（terms in the design matrix）。patsy.dmatrices函数，取一个公式字符串和一个数据集（可以使DataFrame或dict），然后为线性模型产生设计矩阵：

data = pd.DataFrame({
  'x0': [1, 2, 3, 4, 5],
                     'x1': [0.01, -0.01, 0.25, -4.1, 0.], 
                     'y': [-1.5, 0., 3.6, 1.3, -2.]})
data

	x0	x1	y
0	1	0.01	-1.5
1	2	-0.01	0.0
2	3	0.25	3.6
3	4	-4.10	1.3
4	5	0.00	-2.0

y, X = patsy.dmatrices('y ~ x0 + x1', data)
y

DesignMatrix with shape (5, 1)
     y
  -1.5
   0.0
   3.6
   1.3
  -2.0
  Terms:
    'y' (column 0)

DesignMatrix with shape (5, 3)
  Intercept  x0     x1
          1   1   0.01
          1   2  -0.01
          1   3   0.25
          1   4  -4.10
          1   5   0.00
  Terms:
    'Intercept' (column 0)
    'x0' (column 1)
    'x1' (column 2)

这些Patsy DesignMatrix实例是Numpy的ndarrays，附有额外的元数据（metadata）