机器学习——共享单车数据集单项分析

最新推荐文章于 2024-05-26 10:20:29 发布

Nani_xiao

最新推荐文章于 2024-05-26 10:20:29 发布

阅读量4.1k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/xiao_lxl/article/details/95989917

版权

机器学习专栏收录该内容

73 篇文章 24 订阅

订阅专栏

文章目录

总租车人数cnt 的直方图／分布
总租车数的散点图分析
工作日出现的次数
风速分析
独热图表示两两特征之间的相关性
只选择高度相关的两两属性
以散射图显示高相关的属性
分割数据集
缺省参数的线性回归
正则化的线性回归

加载需要的库文件

import matplotlib.pyplot as plt 
import pandas as pd
import numpy as np

import numpy as np # 用来存储和处理大型矩阵；NumPy和稀疏矩阵运算包SciPy配合使用更加方便
import pandas as pd # 数据处理，CSV文件输入输出 

import matplotlib.pyplot as plt #数据可视化工具
import seaborn as sns   #基于Matplotlib的Python可视化工具包，提供更高层次的用户接口，可以给
                        #出漂亮的数据统计图
color = sns.color_palette()#返回一个颜色定义颜色调色板

总租车人数cnt 的直方图／分布


# 读入数据
data = pd.read_csv("day.csv")
# 目标y（总租车人数cnt）的直方图／分布

#  解决中文乱码;
plt.rc('font', family='SimHei', size=13)
# 创建一个新图形
fig = plt.figure()
# 灵活的单变量分布的曲线图
# data.cnt.values：观察数据。如果这一系列目标的属性的名称，该名称将用于标签的数据；
# bins:直方图中箱子个数
# kda：是否为高斯核密度估计
sns.distplot(data.cnt.values, bins=50, kde=True)
# 设置当前轴的x轴标签
plt.xlabel('sum of person use bicycle', fontsize=12)
# 展示生成的图形
plt.show()
# 观测一下数据还算符合正态分布

在这里插入图片描述

总租车数的散点图分析

# 单个特征散点图
# 散点图中的x与y不同大小和/或颜色标记
# 1.range(data.shape[0])：数据位置
# 2.data["cnt"].values:
fig = plt.figure()
plt.scatter(range(data.shape[0]), data["cnt"].values,color='purple')
# 解决中文乱码;
plt.rc('font', family='SimHei', size=13)

plt.title("sum of bicycle");

在这里插入图片描述

工作日出现的次数

1为工作日，0为周末或节假日

#直方图 不连续
fig = plt.figure()  
#工作日
sns.countplot(data.workingday.values, order=[0, 1]);
#解决中文乱码;
plt.rc('font', family='SimHei', size=13)
plt.xlabel('weekday');
plt.ylabel('times');

在这里插入图片描述

风速分析

#直方图  连续
fig = plt.figure()
#风速
sns.distplot(data.windspeed.values, bins=30, kde=False)
#解决中文乱码;
plt.rc('font', family='SimHei', size=13)
plt.xlabel('风速', fontsize=12)
plt.show()

在这里插入图片描述

独热图表示两两特征之间的相关性

#获得所有需要的列值
cols=data.columns 
#cols=data[["holiday","workingday","weathersit","temp","atemp","hum","windspeed","cnt"]]
#data=data[["holiday","workingday","weathersit","temp","atemp","hum","windspeed","cnt"]]
# Calculates pearson co-efficient for all combinations，通常认为相关系数大于0.5的为强相关
data_corr = data.corr().abs()  

#独热图
plt.subplots(figsize=(11, 9))
sns.heatmap(data_corr,annot=True)

# Mask unimportant features
sns.heatmap(data_corr, mask=data_corr < 2, cbar=False)

plt.savefig('day_coor.png' )
plt.show()

在这里插入图片描述

只选择高度相关的两两属性

#设置阈值只选择高度相关的属性
threshold = 0.5
# 成对与以上阈值相关的列表 
corr_list = []
#size = data.shape[1]
size = data_corr.shape[0]

#搜索高相关对 
for i in range(0, size): #特性的数量
    for j in range(i+1,size): #避免重复
        if (data_corr.iloc[i,j] >= threshold and data_corr.iloc[i,j] < 1) or (data_corr.iloc[i,j] < 0 and data_corr.iloc[i,j] <= -threshold):
            corr_list.append([data_corr.iloc[i,j],i,j]) #存储相关性和列索引 
#首先显示高级的     
s_corr_list = sorted(corr_list,key=lambda x: -abs(x[0]))
#打印相关性和列名 
for v,i,j in s_corr_list:
    print ("%s and %s = %.2f" % (cols[i],cols[j],v))

weathersit and temp = 0.99
casual and registered = 0.95
instant and season = 0.87
dteday and yr = 0.83
windspeed and registered = 0.67
instant and casual = 0.66
temp and registered = 0.63
instant and registered = 0.63
weathersit and registered = 0.63
season and casual = 0.59
workingday and atemp = 0.59
season and registered = 0.57
temp and casual = 0.54
temp and windspeed = 0.54
weathersit and windspeed = 0.54
weathersit and casual = 0.54
weekday and windspeed = 0.52

以散射图显示高相关的属性

# 仅高相关对的散射图
for v,i,j in s_corr_list:
    sns.pairplot(data, size=6, x_vars=cols[i],y_vars=cols[j] )
    plt.show()
#    temp and atemp,天气温度和人体感温直接关系
#    atemp and cnt人体感温与租车数相关很大，温度合适租车会比较多，同理天气温度也是如此
#   weathersit and hum 天气情况会直接影响适度，因此关联度较高

在这里插入图片描述

分割数据集

import os
def load_data():#导入数据
    global x_data,y_data,name_data

    if not os.path.isfile("FE_day.csv"):#调用已经做好特征工程的文件，如果文件不存在，就调用函数生成该文件
        Data_preprocessing()
        
    data = pd.read_csv("FE_day.csv")

    data = data.drop(['instant','hum','windspeed'], axis = 1)#去掉编号、湿度、风速等不相关数据
##    print(data)
    
    y_data = data['cnt']
    x_data = data.drop('cnt', axis = 1)

    y_data=np.array(y_data)
    x_data=np.array(x_data)
    name_data =list(data.columns)#返回对象列索引
##### #将数据分割训练数据与测试数据
from sklearn.model_selection import train_test_split

load_data()
        # # 随机采样20%的数据构建测试样本，其余作为训练样本
X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, random_state=0, test_size=0.20)
# X_train.shape

缺省参数的线性回归

# 线性回归
#class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)
from sklearn.linear_model import LinearRegression

# 使用默认配置初始化
lr = LinearRegression()

# 训练模型参数
lr.fit(X_train, y_train)

# 预测
y_test_pred_lr = lr.predict(X_test)
y_train_pred_lr = lr.predict(X_train)


# 看看各特征的权重系数，系数的绝对值大小可视为该特征的重要性
fs = pd.DataFrame({"columns":list(data.columns), "coef":list((lr.coef_.T))})
fs.sort_values(by=['coef'],ascending=False)
# temp  windspeed  weathersit  相关度很高

正则化的线性回归

#岭回归／L2正则
#class sklearn.linear_model.RidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True, 
#                                  normalize=False, scoring=None, cv=None, gcv_mode=None, 
#                                  store_cv_values=False)
from sklearn.linear_model import  RidgeCV

from sklearn.metrics import r2_score
 


#设置超参数（正则参数）范围
alphas = [ 0.01, 0.1, 1, 10,100]
#n_alphas = 20
#alphas = np.logspace(-5,2,n_alphas)

#生成一个RidgeCV实例
ridge = RidgeCV(alphas=alphas, store_cv_values=True)  

#模型训练
ridge.fit(X_train, y_train)    

#预测
y_test_pred_ridge = ridge.predict(X_test)
y_train_pred_ridge = ridge.predict(X_train)


# 评估，使用r2_score评价模型在测试集和训练集上的性能
print ('对ridgecv测试R2-test评分', r2_score(y_test, y_test_pred_ridge))
print ('对ridgecv测试R2-test评分', r2_score(y_train, y_train_pred_ridge))
# 同样为负数

对ridgecv测试R2-test评分 0.8546366847253501
对ridgecv测试R2-test评分 0.827239578558045

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import LassoCV
from sklearn.linear_model import ElasticNet

#lrg=LinearRegression()
#ridge=Ridge()
lasso = LassoCV(alphas= alphas)
lasso.fit(X_train, y_train)

mses = np.mean(lasso.mse_path_, axis = 1)
plt.plot(np.log10(lasso.alphas_), mses) 
#plt.plot(np.log10(lasso.alphas_)*np.ones(3), [0.3, 0.4, 1.0])
plt.xlabel('log(alpha)')
plt.ylabel('mse')
plt.show()    

print ('alpha is:', lasso.alpha_)

# 看看各特征的权重系数，系数的绝对值大小可视为该特征的重要性
fs = pd.DataFrame({"columns":list(data.columns), "coef_lr":list((lr.coef_.T)), "coef_ridge":list((ridge.coef_.T)), "coef_lasso":list((lasso.coef_.T))})
fs.sort_values(by=['coef_lr'],ascending=False)

在这里插入图片描述

alpha is: 1.0

mses = np.mean(lasso.mse_path_, axis = 1)
plt.plot(np.log10(lasso.alphas_), mses) 
#plt.plot(np.log10(lasso.alphas_)*np.ones(3), [0.3, 0.4, 1.0])
plt.xlabel('log(alpha)')
plt.ylabel('mse')
plt.show()    

print ('alpha =:', lasso.alpha_)

Nani_xiao

关注

4
点赞
踩
54

收藏

觉得还不错? 一键收藏
1
评论
机器学习——共享单车数据集单项分析

文章目录总租车人数cnt 的直方图／分布总租车数的散点图分析工作日出现的次数风速分析独热图表示两两特征之间的相关性只选择高度相关的两两属性以散射图显示高相关的属性分割数据集缺省参数的线性回归正则化的线性回归加载需要的库文件import matplotlib.pyplot as plt import pandas as pdimport numpy as npimport numpy a...
复制链接

扫一扫

专栏目录