监督&无监督学习，代价函数，数据集

笃岩_

已于 2022-10-22 17:27:00 修改

阅读量659

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-10-21 10:46:37 首次发布

本文链接：https://blog.csdn.net/wxxxx_xx/article/details/127355626

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

监督学习

监督学习是一种目的明确的训练方式，通过已知因素和已知的结果，通过机器训练，是机器能学会通过已知因素得到未知的结果。

回归问题，是指我们的目标是预测一个连续值输出。（如根据各种因素判断房价）
分类问题，其目的是预测离散值输出。（如一件事发生的情况就几种）

无监督学习

无监督学习，通过几种算法模型，给未知的数据进行分类，再根据这些数据分析这些数据的特征。

代价函数

衡量模型预测出来的值h(θ)与真实值之间的差异的函数叫做代价函数J(θ)

代价函数越小说明模型和参数越符合训练样本(x,y)对应的模型，代价函数是用来找到假设函数的最优解的，将求假设函数问题转换为求代价函数问题。

我们常用平方误差代价函数来求假设函数的最优解

平方误差代价函数就是将实际数据给出的值与我们拟合出来的对应值作差，然后再取平方，平方误差代价函数能表示拟合出的模型对应的值与实际值的差距

可用数据集

从scikit库导入数据集

datasets.load_*
# 表示获取小规模数据集，数据包含在dataset
datasets.fetch_*(data_home=None)
# 获取大规模数据，需要从网络上下载，data_home表示数据集下载的目录，默认是~/scikit_learn_data/
#load和fetch返回的数据类型datasets.base.Bunch(字典格式)

数据集需要划分，不能全部当作训练数据建立模型，所以要留一部分当作测试数据，用于评估模型是否有效，通常在20%~30%