python机器学习(1)简单说明样本数据

这篇博客介绍了机器学习的基础知识,包括样本、特征、常用库,以及分类与回归的概念。讨论了模型复杂度、过拟合和欠拟合,并分析了模型复杂度与数据集大小的关系。接着,讲解了低维度和高维度数据集的特点,如低维度数据的特征不超过2维,而高维度数据特征数量从13增加到104。
摘要由CSDN通过智能技术生成

基本知识

1.样本:sample
2.特征:feature
3.用到的库:
scikit—learn
Jupyter Notebook
Numpy
Scipy
matplotlib
pandas
mglearn
4.分类与回归:
分类是预测标签,包括二分类与多分类。
回归是预测连续值,比如预测收入、房价。
5.泛化、过拟合与欠拟合:
随着模型算法逐渐复杂,其在训练集上的预测精度将提高,但在测试集上的预测精度将降低,因此模型的复杂度需要折中。
模型过于复杂,将导致模型泛化能力差,即过拟合。 模型过于简单,将导致模型精度在训练集表现就很差,更不用说测试集的表现了,此时即欠拟合。
6.模型复杂度与数据集大小的关系
数据点的值变化范围越大,则可以应用更加复杂的模型,预测的表现也会越好。
更多的训练数据往往伴随着更大范围的特征值变化,因此可以应用更复杂的模型算法。
但注意,如果是非常类似的数据点,无论数据集多大也是无济于事的。

样本数据说明

2个低维度数据集

这两个数据集很小,特征维度很低,不超过2维

#用于分类的forge数据集,2个特征输入。
import mglearn
import matplotlib.pyplot as plt
# 生成forge样本的特征X和目标y
X, y = mglearn.datasets.make_forge()
# 使用样本的第0列特征和第1列特征作为绘制的横坐标和纵坐标,目标y作为图案
mglearn.discrete_scatter(X[:, 0], X[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值