自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 PCA(主成分分析)

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。∑是一个m∗n的矩阵,∑除了对角线其它元素都为0,对角线上的元素称为奇异值。VT是V的转置矩阵,是一个n∗n的矩阵,它里面的正交向量被称为右奇异值向量。通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。其中,Q是矩阵A的特征向量组成的矩阵,Σ则是一个对角阵,对角线上的元素就是特征值。

2023-12-31 17:09:34 3135 1

原创 机器学习——支持向量机(SVM)

鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作例子。数据集内包含 3 类共 150 个样本,每类各 50 个样本,每条样本都有 4 个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这 4 个特征预测鸢尾花属于(iris-setosa, iris-versicolour, iris-virginica)中的哪个品种。花萼长度花萼宽度花瓣长度花瓣宽度5.13.31.70.55.02.33.31.06.42.85.62.2品种(标签)0(山鸢尾)

2023-12-18 16:43:21 1035 1

原创 Logistic回归

现有一些数据点,我们用 一条直线对这些点进行拟合,该线称为最佳拟合直线,这个拟合过程就称作回归。利用Logistic 回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的 “回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。logistic回归:Logistic回归是一种监督学习算法,适用于解决二分类问题。其基本思想是通过sigmoid函数将输入特征映射到[0, 1]的范围,表示事件发生的概率。

2023-12-04 20:53:30 991

原创 朴素贝叶斯应用——垃圾邮件过滤

简单高效,易于理解实现。对小规模数据表现良好,适用于多分类问题。假设特征独立, 朴素贝叶斯算法的一个主要假设是所有特征都是相互独立的。在现实世界的某些情况下,这个假设可能并不成立,从而影响了分类的准确性。尽管朴素贝叶斯有其局限性,但在许多实际应用中,它仍然是一个简单而有效的分类算法。根据具体问题的性质,以及数据的特点,选择合适的分类算法非常重要。OVER五、参阅【精选】【机器学习实战】朴素贝叶斯应用之垃圾邮件过滤_基于朴素贝叶斯的垃圾邮件过滤-CSDN博客朴素贝叶斯_百度百科 (baidu.com)

2023-11-20 12:30:27 1348 10

原创 机器学习——决策树

决策树,在这次实验中。了解了一些关于决策树的知识,如决策树的各种划分标准,决策树的优缺点以及怎样去构建一个决策树等等。对于新东西的接受消化还是要花很大力气的,虽然效果并不是那么好。六、参考【精选】机器学习 —— 决策树_决策树流程-CSDN博客【机器学习实战】3、决策树_机器学习实战决策树-CSDN博客决策树_百度百科 (baidu.com)

2023-11-06 19:52:31 316

原创 机器学习:PR曲线和ROC曲线

在机器学习中,我们经常使用PR曲线(Precision-Recall Curve)和ROC曲线(Receiver Operating Characteristic Curve)来评估模型的性能。这两种曲线都可以提供有关分类器性能的重要信息。其实PR曲线和ROC曲线的选择还是要根据实际情况做出选择,当正负样本比例相近时,ROC曲线通常能够给出稳健的性能评估,。当正负样本比例严重不平衡时,PR曲线通常更为实用。

2023-10-23 20:12:21 368

原创 KNN算法原理及实例

它的核心思想是通过寻找最近的邻居来进行分类或回归。KNN算法是一种基于实例的监督学习算法,常用于分类和回归任务。它的核心思想是:如果一个数据点附近的K个数据点中的大多数属于某一类别或者具有相似的数值,那么该数据点也很可能属于该类别或具有类似的数值。计算测试数据点与所有训练数据点之间的距离(通常使用欧几里得距离或其他距离度量方法)。优点:KNN算法的优点包括简单易懂、适用于多种问题、不需要训练过程。5.返回前k个点中出现频率最高的类别作为测试数据的分类。·KNN算法的优缺点。选择距离最近的K个训练数据点。

2023-10-09 20:07:07 283 1

原创 机器学习环境搭建(vscode+anaconda的安装+conda虚拟环境的激活)

机器学习环境搭建

2023-09-25 20:25:06 229 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除