Garlic frog-CSDN博客

原创支持向量机(Support Vector Machine)

支持向量机，其英文名为supportvectormachine，一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

2022-12-18 22:14:45 5025

原创 Logistic回归

假设有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就叫做回归。基于Logistic回归和Sigmoid函数的分类我们想要的函数，能接受所有的输入然后预测出类别。Sigmoid函数具有输出0或1的这种性质，而且在数学上容易处理。因此为了实现Logistic回归分类器，我们可以在每一个特征上都乘以一个回归系统，然后将所有的结果值相加，将这个总和代入Sigmoid函数中，进而得到一个范围在0~1之间的数值。Sigmoid函数定义：任何大于0.5的数据被分入1类

2022-12-04 23:03:19 304

原创朴素贝叶斯算法

朴素贝叶斯优缺点：优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感,由于朴素贝叶斯的“特征条件独立”特点，所以会带来一些准确率上的损失。

2022-11-27 19:37:15 5784 1

原创决策树的构造——进阶处理

由前一篇文章决策树的构造我们了解了什么是决策树，离散型数据的代码实现以及构造它的决策树图形，接下来我们继续了解关于决策树的算法类型ID3算法，C4.5算法，CART算法，以及数据的离散化处理和决策树的预剪枝和后剪枝操作。

2022-11-20 21:34:08 442

原创决策树的构造

使用属性a对样本集D进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。知道了如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得的信息增益最高的特征值就是最好的选择，我们则可以将此特征值当作决策树的根节点，即按照特征值的信息增益的大小依次从上到下当作根节点。熵定义为信息的期望值，所谓信息熵，我们不妨把它理解成某种特定信息的出现概率。

2022-11-13 22:58:36 1051

原创 K-近邻算法（kNN）

如何确定上图中问号处电影的类型呢?首先我们需要先确定电影中存在的打斗镜头和接吻镜头的个数。上面则是各个电影的打斗和接吻镜头的个数以及其电影类型，可以以其镜头个数进行坐标的定位，即问号出的坐标为（18，90）因此可以将问号处与各个电影之间的距离计算出来，如下图现在我们知道了样本集中所有电影与未知电影的距离，并且从小到大排序，因此我们可以找到k个距离最近的电影，来判断其类型，

2022-11-03 15:07:05 2066

原创 P-R曲线的绘制

“p” 是precition，是查准率，也是我们常用到的准确率。“r” 是recall，是查全率，也叫召回率。

2022-10-20 21:17:59 12429 3

weixin_55773387的博客