全批量梯度下降法在机器学习中的应用

最新推荐文章于 2023-10-27 16:13:57 发布

RDSunday

最新推荐文章于 2023-10-27 16:13:57 发布

阅读量990

点赞数

分类专栏：机器学习文章标签：机器学习深度学习 python

本文链接：https://blog.csdn.net/weixin_43755104/article/details/121292316

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

数据集

https://download.csdn.net/download/weixin_43755104/40748551

代码

代码已经做了详细的注释，且可以正常运行。

import pandas as pd
import numpy as np
import os
os.getcwd()
# F:\\pythonProject3\\data\\data\\train.csv
# dataset_path = '..'
# 这是一个全批量梯度下降（full-batch gradient descent）的应用。
# 这个问题是一个回归问题
# 我们给出美国某大型问答社区从2010年10月1日到2016年11月30日，
# 每天新增的问题的个数和回答的个数。
# 任务是预测2016年12月1日到2017年5月1日，该问答网站每天新增的问题数和回答数。
train = pd.read_csv('..\\train.csv')
# 导入数据
# train = pd.read_csv('train.csv')
test = pd.read_csv('..\\test.csv')
submit = pd.read_csv('..\\sample_submit.csv')
path1=os.path.abspath('.')

print("path1@@@@@",path1)
path2=os.path.abspath('..')
print("path2@@@@@",path2)
print(train)
# 初始设置
beta = [1,1] #初始点
alpha = 0.2 #学习率，也就是步长
tol_L = 0.1 #阈值，也就是精度

# 对x进行归一化,train 是训练数据的二维表格
max_x = max(train['id']) #max_x是总共的id数
x = train['id'] / max_x #所有的id都除于max_x
y = train['questions'] # train二维表格中的questions列赋给y
type(train['id'])
print("train['id']#######\n",train['id'])
print("type(train['id'])###\n\n",x)
print("max_x#######",max_x)

#为了计算方向
def compute_grad(beta, x, y):
    '''

    :param beta: 是初始点
    :param x: 是自变量
    :param y: 是真是值
    :return: 梯度数组
    '''
    grad = [0, 0]
    grad[0] = 2. * np.mean(beta[0] + beta[1] * x - y) #求beta[1,1]，中第1个数的梯度
    grad[1] = 2. * np.mean(x * (beta[0] + beta[1] * x - y))#求beta[1,1]，中第2个数的梯度
    return np.array(grad)
#为了计算下一个点在哪，
def update_beta(beta, alpha, grad):
    '''
    :param beta: 第一点，初始点
    :param alpha: 学习率，也就时步长
    :param grad: 梯度
    :return:
    '''
    new_beta = np.array(beta) - alpha * grad
    return new_beta
# 定义计算RMSE的函数
# 均方根误差（RMSE）
def rmse(beta, x, y):
    squared_err = (beta[0] + beta[1] * x - y) ** 2 # beta[0] + beta[1] * x是预测值，y是真实值，
    res = np.sqrt(np.mean(squared_err))
    return res
# 进行第一次计算
grad = compute_grad(beta, x, y) #调用计算梯度函数，计算梯度
loss = rmse(beta, x, y) #调用损失函数，计算损失
beta = update_beta(beta, alpha, grad) #更新下一点
loss_new = rmse(beta, x, y) #调用损失函数，计算下一个损失
# 开始迭代
i = 1
while np.abs(loss_new - loss) > tol_L:
    beta = update_beta(beta, alpha, grad)
    grad = compute_grad(beta, x, y)
    loss = loss_new
    loss_new = rmse(beta, x, y)
    i += 1
    print('Round %s Diff RMSE %s'%(i, abs(loss_new - loss)))
print('Coef: %s \nIntercept %s'%(beta[1], beta[0]))
res = rmse(beta, x, y)
print('Our RMSE: %s'%res)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train[['id']], train[['questions']])
print('Sklearn Coef: %s'%lr.coef_[0][0])
print('Sklearn Coef: %s'%lr.intercept_[0])
res = rmse([936.051219649, 2.19487084], train['id'], y)
print('Sklearn RMSE: %s'%res)

参考

http://sofasofa.io/tutorials/python_gradient_descent/4.php

RDSunday

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
全批量梯度下降法在机器学习中的应用

文章目录数据集代码参考数据集https://download.csdn.net/download/weixin_43755104/40748551代码代码已经做了详细的注释，且可以正常运行。import pandas as pdimport numpy as npimport osos.getcwd()# F:\\pythonProject3\\data\\data\\train.csv# dataset_path = '..'# 这是一个全批量梯度下降（full-batch grad
复制链接

扫一扫