机器学习基础概念-CSDN博客

本文链接：https://blog.csdn.net/weixin_43595036/article/details/114824955

1.机器学习定义

机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。
根据训练数据是否具有标签信息，可以将机器学习的任务分成以下三类。

监督学习：基于已知类别的训练数据进行学习；
无监督学习：基于未知类别的训练数据进行学习；
半监督学习：同时使用已知类别和未知类别的训练数据进行学习。

根据因变量的是否连续，有监督学习又分为回归和分类：

回归：因变量是连续型变量，如：房价，体重等。
分类：因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。
在学习机器学习中，我们经常使用scikit-learn简称sklearn工具库来探索机器学习项目，下面我们开始使用sklearn来演示这几个具体的概念：

1.1 回归

首先，我们先来看看有监督学习中回归的例子，我们使用sklearn内置数据集Boston房价数据集。
sklearn中所有内置数据集都封装在datasets对象内：返回的对象有：

data:特征X的矩阵(ndarray)
target:因变量的向量(ndarray)
feature_names:特征名称(ndarray)

数据给定任务所需要的因变量，因变量为波士顿房价Price是一个连续型变量，所以这是一个回归的例子。
各个特征的相关解释：
CRIM：各城镇的人均犯罪率
ZN：规划地段超过25,000平方英尺的住宅用地比例 INDUS：城镇非零售商业用地比例
CHAS：是否在查尔斯河边(=1是)
NOX：一氧化氮浓度(/千万分之一)
RM：每个住宅的平均房间数
AGE：1940年以前建造的自住房屋的比例
DIS：到波士顿五个就业中心的加权距离
RAD：放射状公路的可达性指数
TAX：全部价值的房产税率(每1万美元)
PTRATIO：按城镇分配的学生与教师比例
B：1000(Bk - 0.63)^2其中Bk是每个城镇的黑人比例
LSTAT：较低地位人口
Price：房价

1.2 分类

以iris数据集为例
在这里插入图片描述

每种不同的颜色和点的样式为一种类型的鸢尾花，数据集有三种不同类型的鸢尾花。因此因变量是一个类别变量，因此通过特征预测鸢尾花类别的问题是一个分类问题。
各个特征的相关解释：

sepal length (cm)：花萼长度(厘米)
sepal width (cm)：花萼宽度(厘米)
petal length (cm)：花瓣长度(厘米)
petal width (cm)：花瓣宽度(厘米)

1.3 无监督学习

可以使用sklearn生成符合自身需求的数据集，下面我们用其中几个函数例子来生成无因变量的数据集：
在这里插入图片描述

感谢Datawhale团队为开源学习做出的贡献！
参考文献：
https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning