python机器学习（1）简单说明样本数据

最新推荐文章于 2023-07-10 17:09:41 发布

关青御热风

最新推荐文章于 2023-07-10 17:09:41 发布

阅读量684

点赞数 1

文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_52662649/article/details/117123248

版权

这篇博客介绍了机器学习的基础知识，包括样本、特征、常用库，以及分类与回归的概念。讨论了模型复杂度、过拟合和欠拟合，并分析了模型复杂度与数据集大小的关系。接着，讲解了低维度和高维度数据集的特点，如低维度数据的特征不超过2维，而高维度数据特征数量从13增加到104。

摘要由CSDN通过智能技术生成

基本知识

1.样本：sample
2.特征：feature
3.用到的库：
scikit—learn
Jupyter Notebook
Numpy
Scipy
matplotlib
pandas
mglearn
4.分类与回归：
分类是预测标签，包括二分类与多分类。
回归是预测连续值，比如预测收入、房价。
5.泛化、过拟合与欠拟合：
随着模型算法逐渐复杂，其在训练集上的预测精度将提高，但在测试集上的预测精度将降低，因此模型的复杂度需要折中。
模型过于复杂，将导致模型泛化能力差，即过拟合。模型过于简单，将导致模型精度在训练集表现就很差，更不用说测试集的表现了，此时即欠拟合。
6.模型复杂度与数据集大小的关系
数据点的值变化范围越大，则可以应用更加复杂的模型，预测的表现也会越好。
更多的训练数据往往伴随着更大范围的特征值变化，因此可以应用更复杂的模型算法。
但注意，如果是非常类似的数据点，无论数据集多大也是无济于事的。

样本数据说明

2个低维度数据集

这两个数据集很小，特征维度很低，不超过2维

#用于分类的forge数据集，2个特征输入。
import mglearn
import matplotlib.pyplot as plt
# 生成forge样本的特征X和目标y
X, y = mglearn.datasets.make_forge()
# 使用样本的第0列特征和第1列特征作为绘制的横坐标和纵坐标，目标y作为图案
mglearn.discrete_scatter(X[:, 0], X[