PySpark入门二十二:ML--线性回归

ML–线性回归

线性回归的总体目标是预测直线通过数据, 使每个点的垂直距离是最小的到该预测线。

squared errors - 均方误差

是反映估计量与被估计量之间差异程度的一种度量

协方差(Covariance)

在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

TSS , SSE , SSR

TSS = SSE + SSR
TSS - Total Sum of Squared Errors 平方误差的总和 - 使用均值进行计算。
SSE - Sum of squared errors 平方误差之和 - 计算得到斜率公式,重新计算需要预测的值。 - 残差平方和
SSR - Residual Sum of squared errors 平方误差的剩余总和 - 回归平方和

meanSquaredError - 均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量

判定系数(拟合优度) - SSR / TSS 计算求得 确定系数,越大,说明预测的准确率越高。

计算过程
求斜率和截距 (通过均值代理计算)- 通过协方差进行计算
计算确定系数,用来评估准确性。

代码实现

from pyspark.sql import SparkSession
spark=SparkSession.builder.appName('lin_reg').getOrCreate()

# 2-读取数据
from pyspark.ml.regression import LinearRegression
df=spark.read.csv('Linear_regression_dataset.csv',inferSchema=True,header=
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值