机器学习
文章平均质量分 81
小殊小殊
为人在世 幸遇升平 自当立一番好言 行一番好事业
展开
-
爱因斯坦求和约定 含代码einsum
爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作,让表达式更加简洁明了。原创 2023-03-08 16:53:52 · 4432 阅读 · 5 评论 -
常见的机器学习算法的计算复杂度
计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类,时间复杂度和空间复杂度,本文将介绍两种复杂度,并提供8种算法的复杂度。原创 2022-11-22 08:49:19 · 1289 阅读 · 0 评论 -
最大似然估计和最小二乘法 含代码
最大似然估计和最小二乘法是机器学习中经常用到的两种方法,它们既有区别又有千丝万缕的联系,而且容易搞混,今天我们以简单的线性回归为例(简单到没有偏执,只有权重w),简单介绍一下两种算法。...原创 2022-07-29 14:21:27 · 8554 阅读 · 9 评论 -
波士顿房价数据集 Boston house prices dataset
因为涉及种族问题(有一个和黑人人口占比相关的变量B),波士顿房价这个数据集将在sklearn 1.2版本中被移除。在这里记录一下。原创 2022-07-28 17:47:59 · 12057 阅读 · 2 评论 -
深度学习参数初始化(一)Xavier初始化 含代码
Xavier初始化也称为Glorot初始化,因为发明人为Xavier Glorot。Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法,他们的思想就是尽可能的让输入和输出服从相同的分布,这样就能够避免后面层的激活函数的输出值趋向于0。........................原创 2022-06-30 19:54:45 · 38868 阅读 · 12 评论 -
通俗解读人脸检测框架-RetinaFace
2019年何凯明提出Focal Loss时为了验证Focal Loss的可行性,顺便(没错,就是顺便)提出了RetinaNet。RetinaFace是在RetinaNet基础上引申出来的人脸检测框架,所以大致结构和RetinaNet非常像。原创 2022-05-10 16:24:06 · 24103 阅读 · 16 评论 -
全网首发,Swin Transformer+FaceNet实现人脸识别
一、 简介与其他的深度学习方法在人脸上的应用不同,FaceNet并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类等。FaceNet主要有两个重点:Backbone和Triplet loss。我们也将主要从这两个方面介绍。代码:oaifaye/facenet-swim-transformer二、Swin Transformer作为Backbone......原创 2022-05-04 15:33:36 · 19910 阅读 · 14 评论 -
机器学习模型评估指标总结
本文对机器学习模型评估指标进行了完整总结。机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型,测试集则用于评估模型。针对不同的机器学习问题(分类、排序、回归、序列预测等),评估指标决定了我们如何衡量模型的好坏。原创 2022-03-22 15:07:59 · 1653 阅读 · 0 评论 -
深度学习调参tricks总结
寻找合适的学习率(learning rate)学习率是一个非常非常重要的超参数,这个参数呢,面对不同规模、不同batch-size、不同优化方式、不同数据集,其最合适的值都是不确定的,我们无法光凭经验来准确地确定lr的值,我们唯一可以做的,就是在训练中不断寻找最合适当前状态的学习率。比如下图利用fastai中的lr_find()函数寻找合适的学习率,根据下方的学习率-损失曲线得到此时合适的学习率为1e-2。推荐一篇fastai首席设计师「Sylvain Gugger」的一篇博客:How Do原创 2022-02-10 10:55:41 · 1454 阅读 · 1 评论 -
熵、联合熵、相对熵、交叉熵、JS散度、互信息、条件熵
一、熵对于离散型随机变量,当它服从均匀分布时,熵有极大值。取某一个值的概率为1,取其他所有值的概率为0时,熵有极小值(此时随机变量退化成确定的变量)。对于离散型随机变量,假设概率质量函数为p(x),熵是如下多元函数 :伯努利分布的熵为:对于连续型随机变量,假设概率密度函数为p(x),熵(也称为微Differential Entropy分熵 )定义为:二、联合熵联合熵(Joint Entropy)是熵对多维概...原创 2021-12-10 19:29:25 · 23757 阅读 · 3 评论 -
熵为什么使用log?
首先,信息也是物理量,就像质量kg,我们测量质量的方法是,我们选择一个参照物,把这个物体的质量定义为1kg,当想要测量其它物体的质量时就看这个这个物体的质量相当于多少个参照物的质量,这里的多少个便是kg。上图中待测物体的质量m等于参照物体的质量B乘以参照物体的个数n,所以当知道总质量m要求个数n时,我们用乘法的反函数,既除法来计算。 但是测量信息时,不能用除法,比如抛掷3枚硬币能够产生的结果是2的3次方=8种,而不是2*3=6种,是指数关系而...原创 2021-12-03 17:26:13 · 2444 阅读 · 5 评论 -
机器学习领域必知必会的12种概率分布(附Python代码实现)
机器学习有其独特的数学基础,我们用微积分来处理变化无限小的函数,并计算它们的变化;我们使用线性代数来处理计算过程;我们还用概率论与统计学建模不确定性。在这其中,概率论有其独特的地位,模型的预测结果、学习过程、学习目标都可以通过概率的角度来理解。与此同时,从更细的角度来说,随机变量的概率分布也是我们必须理解的内容。在这篇文章中,项目作者介绍了所有你需要了解的统计分布,他还提供了每一种分布的实现代码。项目地址:https://github.com/graykode/distribution-is转载 2021-08-23 08:36:41 · 650 阅读 · 1 评论