zs_id-CSDN博客

原创 PCA（主成分分析）

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。∑是一个m∗n的矩阵，∑除了对角线其它元素都为0，对角线上的元素称为奇异值。VT是V的转置矩阵，是一个n∗n的矩阵，它里面的正交向量被称为右奇异值向量。通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值和特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。其中，Q是矩阵A的特征向量组成的矩阵，Σ则是一个对角阵，对角线上的元素就是特征值。

2023-12-31 17:09:34 6618 1

原创机器学习——支持向量机(SVM)

鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作例子。数据集内包含 3 类共 150 个样本，每类各 50 个样本，每条样本都有 4 个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这 4 个特征预测鸢尾花属于（iris-setosa, iris-versicolour, iris-virginica）中的哪个品种。花萼长度花萼宽度花瓣长度花瓣宽度5.13.31.70.55.02.33.31.06.42.85.62.2品种（标签）0（山鸢尾）

2023-12-18 16:43:21 1155 1

原创 Logistic回归

现有一些数据点，我们用一条直线对这些点进行拟合，该线称为最佳拟合直线，这个拟合过程就称作回归。利用Logistic 回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的 “回归”一词源于最佳拟合，表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。logistic回归：Logistic回归是一种监督学习算法，适用于解决二分类问题。其基本思想是通过sigmoid函数将输入特征映射到[0, 1]的范围，表示事件发生的概率。

2023-12-04 20:53:30 1090

原创朴素贝叶斯应用——垃圾邮件过滤

简单高效，易于理解实现。对小规模数据表现良好，适用于多分类问题。假设特征独立，朴素贝叶斯算法的一个主要假设是所有特征都是相互独立的。在现实世界的某些情况下，这个假设可能并不成立，从而影响了分类的准确性。尽管朴素贝叶斯有其局限性，但在许多实际应用中，它仍然是一个简单而有效的分类算法。根据具体问题的性质，以及数据的特点，选择合适的分类算法非常重要。OVER五、参阅【精选】【机器学习实战】朴素贝叶斯应用之垃圾邮件过滤_基于朴素贝叶斯的垃圾邮件过滤-CSDN博客朴素贝叶斯_百度百科 (baidu.com)

2023-11-20 12:30:27 1721 10

原创机器学习——决策树

决策树，在这次实验中。了解了一些关于决策树的知识，如决策树的各种划分标准，决策树的优缺点以及怎样去构建一个决策树等等。对于新东西的接受消化还是要花很大力气的，虽然效果并不是那么好。六、参考【精选】机器学习 —— 决策树_决策树流程-CSDN博客【机器学习实战】3、决策树_机器学习实战决策树-CSDN博客决策树_百度百科 (baidu.com)

2023-11-06 19:52:31 485

原创机器学习：PR曲线和ROC曲线

在机器学习中，我们经常使用PR曲线（Precision-Recall Curve）和ROC曲线（Receiver Operating Characteristic Curve）来评估模型的性能。这两种曲线都可以提供有关分类器性能的重要信息。其实PR曲线和ROC曲线的选择还是要根据实际情况做出选择，当正负样本比例相近时，ROC曲线通常能够给出稳健的性能评估，。当正负样本比例严重不平衡时，PR曲线通常更为实用。

2023-10-23 20:12:21 595

原创 KNN算法原理及实例

它的核心思想是通过寻找最近的邻居来进行分类或回归。KNN算法是一种基于实例的监督学习算法，常用于分类和回归任务。它的核心思想是：如果一个数据点附近的K个数据点中的大多数属于某一类别或者具有相似的数值，那么该数据点也很可能属于该类别或具有类似的数值。计算测试数据点与所有训练数据点之间的距离（通常使用欧几里得距离或其他距离度量方法）。优点：KNN算法的优点包括简单易懂、适用于多种问题、不需要训练过程。5.返回前k个点中出现频率最高的类别作为测试数据的分类。·KNN算法的优缺点。选择距离最近的K个训练数据点。

2023-10-09 20:07:07 342 1