![](https://img-blog.csdnimg.cn/2021020912595447.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 91
分享机器学习和深度学习相关知识
瞻邈
老菜鸟一个。
展开
-
DCAI:Data-Centric AI 以数据为中心的AI
想象当中的数据集: usually fairly clean & well-curated (e.g. dog/cat images) 猫就是猫,狗就是狗实际现实生活中的数据集:非常混乱~ https://labelerrors.com/ 比如这个网站里提供了一些人们常用的开源数据集中的错误标签部分两个大佬的meme,乐呵一下Seasoned data scientist: It's more worthwhile to invest in exploring & fixing the data than原创 2024-03-12 21:54:42 · 203 阅读 · 0 评论 -
集成学习(Ensemble Learning)
在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。...原创 2021-06-05 17:26:18 · 1222 阅读 · 1 评论 -
scikit-learn
在大家的日常生活中,无论是工作还是学习,都占有举足轻重的地位!先聊聊它的优缺点,让大家有一个整体的认识!有了一个整体的认识之后,专门针对监督学习算法,各个举例,给出大家完整可以抛出结果的代码示例来。原创 2023-10-24 10:38:39 · 323 阅读 · 0 评论 -
DBSCAN聚类算法
DBSCAN是一种非常著名的基于密度的聚类算法。其英文全称是 Density-Based Spatial Clustering of Applications with Noise,意即:一种基于密度,对噪声鲁棒的空间聚类算法。直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。原创 2023-04-02 17:37:59 · 466 阅读 · 0 评论 -
Octree(八叉树)
八叉树(Octree)是一种用于描述三维空间的树状数据结构。八叉树的每个节点表示一个正方体的体积元素,每个节点有八个子节点,将八个子节点所表示的体积元素加在一起就等于父节点的体积。八叉树是四叉树在三维空间上的扩展,二维上我们有四个象限,而三维上,我们有8个卦限。八叉树主要用于空间划分和最近邻搜索。实现Octree的原理。原创 2023-04-02 17:31:19 · 2956 阅读 · 0 评论 -
自组织映射(Self-organizing map, SOM)
自组织映射(Self-organizing map, SOM)通过学习输入空间中的数据,生成一个低维、离散的映射(Map),从某种程度上也可看成一种降维算法。SOM是一种的人工神经网络。不同于一般神经网络基于损失函数的反向传递来训练,它运用(competitive learning)策略,依靠神经元之间互相竞争逐步优化网络。使用近邻关系函数(neighborhood function)来维持输入空间的拓扑结构。维持输入空间的拓扑结构:意味着什么 二维映射包含了数据点之间的相对距离。原创 2023-04-02 16:40:23 · 745 阅读 · 0 评论 -
K-means聚类算法
K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。本文大致思路为:先介绍经典的牧师-村名模型来引入 K-means 算法,然后介绍算法步骤和时间复杂度,通过介绍其优缺点来引入算法的调优与改进,最后我们利用之前学的 EM 算法,对其进行收敛证明。原创 2023-04-02 15:49:32 · 327 阅读 · 0 评论 -
常用聚类算法分析
聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。原创 2023-02-18 15:18:09 · 2112 阅读 · 2 评论 -
主成分分析(PCA)原理详解
在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面原创 2023-02-18 13:15:15 · 6205 阅读 · 0 评论 -
多目标跟踪(MOT)入门介绍
最近做了一些多目标跟踪方向的调研,因此把调研的结果以图片加文字的形式展现出来,希望能帮助到入门这一领域的同学。也欢迎大家和我讨论关于这一领域的任何问题。原创 2023-01-29 15:59:35 · 1618 阅读 · 0 评论 -
自动梯度计算
神经网络的参数主要通过梯度下降来进行优化. 当确定了风险函数以及网络结构后, 我们就可以手动用链式法则来计算风险函数对每个参数的梯度, 并用代码进行实现. 但是手动求导并转换为计算机程序的过程非常琐碎并容易出错,导致实现神经网络变得十分低效. 实际上, 参数的梯度可以让计算机来自动计算. 目前, 主流的深度学习框架都包含了自动梯度计算的功能, 即我们可以只考虑网络结构并用代码实现, 其梯度可以自动进行计算, 无须人工干预, 这样可以大幅提高开发效率.自动计算梯度的方法可以分为以下三类: 数值微分、符号微分原创 2023-01-01 23:04:07 · 864 阅读 · 0 评论 -
机器学习理论和定理
在机器学习中, 有一些非常有名的理论或定理, 对理解机器学习的内在特性非常有帮助.。原创 2023-01-01 00:51:25 · 1065 阅读 · 0 评论 -
EM算法详解
1. 极大似然估计1.1. 经典问题——学生身高问题需要调查学校的男生和女生的身高分布。 假设你在校园里随便找了100个男生和100个女生。他们共200个人。将他们按照性别划分为两组,然后先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差∂2我们不知道,这两个参数就是我们要估计的。记作θ=[u, ∂]T。问题:我们知道样本所服从的概率分布的模型和一些样本,而不知道该模型中的参数。我们已知的有两个:(1)样本服从的分布模型(2)随机抽取.原创 2022-05-07 19:48:38 · 1019 阅读 · 0 评论 -
机器学习中的梯度下降法
1. 机器学习中为什么需要梯度下降 梯度下降是机器学习中常见优化算法之一,梯度下降法有以下几个作用: (1)梯度下降是迭代法的一种,可以用于求解最小二乘问题。 (2)在求解机器学习算法的模型参数,即无约束优化问题时,主要有梯度下降法(Gradient Descent)和最小二乘法。 (3)在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。 (4)如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。原创 2022-03-08 09:52:45 · 6702 阅读 · 0 评论 -
常用分类算法的优缺点
1. Bayes 贝叶斯分类法1.1. 优点1)所需估计的参数少,对于缺失数据不敏感。 2)有着坚实的数学基础,以及稳 定的分类效率。1.2. 缺点1)需要假设属性之间相互独立,这往往 并不成立。(喜欢吃番茄、鸡蛋,却不 喜欢吃番茄炒蛋)。 2)需要知道先验概率。 3)分类决策存在错误率。2. Decision Tree决策树2.1. 优点1)不需要任何领域知识或参数假设。 2)适合高维数据。 3)简单易于理解。 4)短时间内处理大量数据,得原创 2022-03-04 17:21:34 · 2161 阅读 · 0 评论 -
分类算法的评估方法
Ture Positive 把正的判断为正的数目 True Positive,判断正确,且判为了正,即正的预测为正的。: False Negative 把正的错判为负的数目 False Negative,判断错误,且判为了负,即把正的判为了负的: False Positive 把负的错判为正的数目 False Positive, 判断错误,且判为了正,即把负的判为了正的: True Negative 把负的判为负的数目 True Negative,判断正确,且判为了负,即把负的判为了负的。原创 2022-02-08 19:10:44 · 943 阅读 · 0 评论 -
特征金字塔技术总结
特征金字塔是目前用于目标检测、语义分割、行为识别等方面比较重要的一个部分,对于提高模型性能具有非常好的表现。不同大小的目标都经过了相同的降采样比例后会出现较大的语义代沟,最常见的表现就是小目标检测精度比较低。特征金字塔具有在不同尺度下有不同分辨率的特点,不同大小的目标都可以在相应的尺度下拥有合适的特征表示,通过融合多尺度信息,在不同尺度下对不同大小的目标进行预测,从而很好地提升了模型的性能。本文将介绍特征金字塔的两种构建方式,介绍目前特征金字塔的主要改进思路和方案,主要有:ASPP, FPN, PA转载 2022-02-01 18:33:24 · 1688 阅读 · 0 评论 -
机器学习中的觉的距离和相似度
对于距离来说,在机器学习中用的最多的就是聚类算法Clustering,Clustering以各种距离为根据判断两条数据是否为同一类。原创 2021-11-26 09:58:48 · 897 阅读 · 0 评论 -
Optimizer梯度下降优化算法
那种优化器最好?该选择哪种优化算法?目前还没能够达达成共识。Schaul et al (2014)展示了许多优化算法在大量学习任务上极具价值的比较。虽然结果表明,具有自适应学习率的优化器表现的很鲁棒,不分伯仲,但是没有哪种算法能够脱颖而出。目前,最流行并且使用很高的优化器(算法)包括SGD、具有动量的SGD、RMSprop、具有动量的RMSProp、AdaDelta和Adam。在实际应用中,选择哪种优化器应结合具体问题;同时,也优化器的选择也取决于使用者对优化器的熟悉程度(比如参数的调节等等)。原创 2022-10-23 00:23:58 · 433 阅读 · 1 评论 -
开源交互式自动标注工具EISeg
在人工智能行业有这么一句话:“深度学习有多智能、背后就有多少人工”。这句话直接说出了深度学习从业者心中的痛处,毕竟模型的好坏数据占着很大的因素,但是数据的标注成本却让很多从业者感到头疼。在标注中,矩形框标注还相对简单,但是对于像素级别的分割标注,往往需要大量的点将目标轮廓抠出来,这需要大量的时间和人力成本去完成。近期 PaddleSeg 团队发布了业界首个高性能的交互式分割自动标注工具—EISeg,什么是交互式分割呢?它其实就是先用预训练模型对图像进行预标注,对于标注不精准、有误差的地方,再通过一系列绿转载 2021-10-05 20:36:40 · 1688 阅读 · 0 评论 -
机器学习算法
在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线。例如: y = B0 + B1 * x我们将在给定输入值 x 的条件下预测 y,线性回归学习算法的目的是找到系数 B0 和 B1 的值。原创 2024-03-14 20:40:03 · 1190 阅读 · 0 评论