前言
这篇博客用来记录初学 普通最小二乘回归 遇到的相关知识点和解决问题的过程。
开发环境:Pycharm 2018.1.2
版本:Python 2.7.14 :: Anaconda, Inc.
回归 - 已有数据
数据集:Cal_housing.csv
简 介:从 1990 年至今,美国加州所有街区人口普查的信息,关于 9 组变量,共 20640 个观测值。
Variables | Bols | tols |
---|---|---|
INTERCEPT (截距) | 11.4939 | 275.7518 |
MEDIAN INCOME (收入中值) | 0.4790 | 45.7768 |
MEDIAN INCOME2 (收入中值2) | -0.0166 | -9.4841 |
MEDIAN INCOME3 (收入中值3) | -0.0002 | -1.9157 |
ln(MEDIAN AGE) (年龄中位数) | 0.1570 | 33.6123 |
ln(TOTAL ROOMS/ POPULATION) (总房屋数/人口) | -0.8582 | -56.1280 |
ln(BEDROOMS/ POPULATION) (卧室/人口) | 0.8043 | 38.0685 |
ln(POPULATION/ HOUSEHOLDS) (人口/家庭) | -0.4077 | -20.8762 |
ln(HOUSEHOLDS) (家庭) | 0.0477 | 13.0792 |
用下面代码读入数据, 并弄清楚哪些是自变量哪个是因变量:
import pandas as pd
import numpy as np
data = pd.read_csv("cal_housing.csv")
name = data.columns
X = data[name[:8]] # 第1-8列
y = data[name[8:9]] # 第9列
print("X name :", name[:8])
print("y name :", name[8:9])
print(data.shape, X.shape, y.shape) # 返回行列数
---------------------------------------------
('X name :', Index([u'longitude',