使用Matplotlib显示图形
在页面上显示图形
简易方法plt.plot
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
x1 = np.linspace(-5,5,101)
y1 = np.sin(x1)
plt.plot(x1,y1)
严密地面向对象进行声明ax.plot
fig,ax = plt.subplots()
ax.set_title("Sin")
ax.set_xlabel("rad")
ax.plot(x1,y1)
handles,labels = ax.get_legend_handles_labels()
ax.legend(handles,labels)
plt.show()
绘制各种图形
显示图形数据
x2 = np.arange(100) # 元素为“从0到99的整数”数组
y2 = x2 * np.random.rand(100) # 在从0到1的范围内随机选出100个数据
散点图
使用scatter方法绘制散点图
plt.scatter(x2,y2)
直方图
使用hist方法绘制直方图
plt.hist(y2,bins=5)
y2的直方图的bin为5
柱状图
使用bar方法绘制柱状图
plt.bar(x2,y2)
折线图
使用plot方法绘制折线图
plt.plot(x2,y2)
箱线图
使用boxplot方法绘制箱线图
箱线图便于查看数据分布
红酒数据集
from sklearn.datasets import load_wine
data = load_wine()
x3 = data.data[:, [0]]
y3 = data.data[:, [9]]
plt.scatter(x3,y3)
使用pandas理解和处理数据
数据观察
import pandas as pd
from sklearn.datasets import load_wine
data = load_wine()
df_X = pd.DataFrame(data.data, columns = data.feature_names)
df_X.head()
df_y = pd.DataFrame(data.target,columns = ["kind(target)"])
df_y.head()
# pandas中的concat将特征值df_x与目标变量df_y合并
df = pd.concat([df_X,df_y],axis=1)
df.head()
数据可视化
plt.hist(df.loc[:, "alcohol"])
plt.boxplot(df.loc[:, "alcohol"])
相关系数
corr
方法计算相关系数
相关系数越接近1,越表明数据是正相关关系;越接近-1,越表明数据是负相关关系;相关系数在0左右,数据列之间的相关性很低
df.corr()
统计信息
describe
方法输出数据的行数、平均值、标准差、最小值、25百分位数、中位数、75百分位数、最大值,从统计信息可以看出每列包含的数据具有何种特性、有没有缺损等信息
df.describe()
散点图矩阵
scatter_matrix
输出散点图矩阵
所有散点图矩阵
from pandas.plotting import scatter_matrix
_ = scatter_matrix(df, figsize=(15,15))
部分散点图矩阵
查看部分列的关联性
从所有散点图矩阵中选出索引为0、9的列和最后一列的关联性
_ = scatter_matrix(df.iloc[:, [0,9,-1]])