# -*- coding: utf-8 -*-
'''
Folds5x2_pp.csv共有9568个样本数据,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。
对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型
'''
'''
不同方法建立线性回归模型
一.传统的统计学statsmodels.formula.api建立ols线性回归模型
二.机器学习sklearn.linear_model建立LinearRegression线性回归模型
为了防止线性模型过拟合,建立线性回归模型时加入正则化项
1. 线性回归的L1正则化: Lasso回归,正则化项:L1范数
定义:Lasso回归与一般线性回归的区别主要是在损失函数上增加L1正则化的项, L1正则化的项有一个常数a来调节损失函数的均方误差和正则化项的权重.
Lasso回归算法:坐标轴下降法(coordinate descent)和最小角回归法(Least Angle Regressino)
2. 线性回归的L2正则化: Ridge回归,正则化项:L2范数
定义:Ridge回归与一般线性回归的区别主要是在损失函数上增加L2正则化的项
Ridge回归算法:最小二乘法
三.机器学习sklearn.linear_model建立Ridge回归以及选择Ridge回归超参数a
'''
# 读取数据
import os
import pandas as pd
import numpy as np
os.chdir(r'F:\python_data_mining\CCPP')
data = pd.read_csv('Folds5x2_pp.csv')
print('数据预览: \n{}'.format(data.head()))
pr
机器学习笔记02线性回归
最新推荐文章于 2024-04-17 17:55:44 发布