机器学习-分类-k近邻与决策树

最新推荐文章于 2024-05-19 18:08:35 发布

VIP文章 Caspian�

最新推荐文章于 2024-05-19 18:08:35 发布

阅读量2.3k

点赞数

分类专栏：机器学习文章标签：机器学习决策树分类 python

本文链接：https://blog.csdn.net/weixin_44020827/article/details/121958735

版权

二、k近邻与决策树

1.k近邻

原理：

如果一个样本在特征空间中的k个最相似（特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也被分到这一类别。即某个样本的类别由与它最相近的k个样本投票得出。通俗的说就是少数服从多数。

有以下几点需要说明：

（1）k的选取

k过小意味着整体模型会变得复杂，容易发生过拟合；k过大会导致与输入实例较远的样本也会起到预测作用，使得预测错误的概率增加。通常采用交叉验证的方法来选取最优的k。

（2）距离的度量

常用的距离度量方法有曼哈顿距离、欧式距离等。

$x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...x_{i}^{(n)});x_{j}=(x_{j}^{(1)},x_{j}^{(2)},...x_{j}^{(n)})$ 之间的L_p距离定义为：

$L_p(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{l}-x_j^{l}|^p)^{1/p}$

当p=1时为曼哈顿距离；当p=2时为欧氏距离。

（3）特征归一化

在处理不同取值范围的特征值时，常采用的方法是将数值归一化，将每一个特征值的取值范围归一化到0~1或者-1~1。

常采用的归一化方法为极差归一化：

$x^{*}=\frac{x-min}{max-min}$

过程：

（1）给定样本点，计算数据集中所有点到该点的距离，按照距离进行排序。

（2）选取与样本点距离最小的k个点。

（3）确定这k个点所在类别出现的频率。

（4）返回这k个点所在类别出现频率最高的类别作为预测结果。

python代码：

from sklearn import datasets#导入数据集
from sklearn.preprocessing import MinMaxScaler#归一化
from sklearn.model_selection import train_test_split#划分数据集
from sklearn.metrics import accuracy_score#评分
from scipy.spatial import distance#计算距离
import numpy as np
import operator#排序

#计算欧氏距离
#设每个样本有m个属性，训练集一共有n个数据
#row就代表新输入的那个样本，因为只是一个数据，所以是1*m维的
#Matrix代表整个训练集，是个n*m维的。
#下面的函数用来计算新输入的样本与整个训练集的欧氏距离
def my_m

最低0.47元/天解锁文章

Caspian�

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
机器学习-分类-k近邻与决策树

二、k近邻与决策树1.k近邻原理：如果一个样本在特征空间中的k个最相似（特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也被分到这一类别。即某个样本的类别由与它最相近的k个样本投票得出。通俗的说就是少数服从多数。有以下几点需要说明：（1）k的选取k过小意味着整体模型会变得复杂，容易发生过拟合；k过大会导致与输入实例较远的样本也会起到预测作用，使得预测错误的概率增加。通常采用交叉验证的方法来选取最优的k。（2）距离的度量常用的距离度量方法有曼哈顿距离、欧式距离等。
复制链接

扫一扫