大数据——机器学习
文章平均质量分 87
友培
感觉数据+AI之美
展开
-
针对序列任务—transformer
李宏毅老师的transformer原创 2024-04-07 17:08:12 · 966 阅读 · 0 评论 -
实用机器学习——建模前/后处理
文章目录实用机器学习数据处理数据预处理的部分数据预处理可视化分析的部分数据清洗的部分数据变形的部分特征工程的部分评估+调参评估调参超参数优化实用机器学习(中文版)—李沐:https://www.bilibili.com/video/BV1Xh411p7M9?share_source=copy_web实用机器学习数据处理数据预处理的部分python可以采用pandas基本实现,可以先看下数据比如一些常见的看是否有空值、describe中的最大值,均值,最小值;有的数据是严格的非负数原创 2022-02-27 21:30:04 · 1834 阅读 · 0 评论 -
时间序列ARIMA
文章目录ARIMA验证平稳性差分ARMAARMAACF(自相关函数)PACF(偏自相关函数)综合考虑理清思路ARIMA传送门:https://www.bilibili.com/video/BV1dT4y1V7qW?p=3&share_source=copy_web验证平稳性要求我们用其时间特性的时候,就得需要该样本数据的均值和方差不发生明显的变化,就是按照现有的形状拟合延续严平稳:数据的分布不随时间的改变而改变弱平稳:未来某个时刻的数值依赖于过去的信息,有其依赖性差分时间序列t时刻与原创 2022-02-18 21:20:56 · 2632 阅读 · 0 评论 -
机器学习——入门基础(神经网络)
文章目录M-P神经元感知机神经网络BP算法梯度下降(标准、Mini-batch、随机)传送门,讲解到位:https://www.bilibili.com/video/BV1Mh411e7VU?p=7&share_source=copy_webM-P神经元M-P神经元是模拟生物行为的数学模型,接收n个输入,并且给各输入增加权重,计算加权和,然后和自身的阈值theta进行减法比较,最后经过激活函数处理(两种处理方式:减法结果<0—>抑制、减法结果>0—>激活),然后输出,一原创 2022-01-23 14:54:12 · 798 阅读 · 0 评论 -
机器学习——入门基础(贝叶斯分类器)
文章目录贝叶斯定理重新理解最大似然估计朴素贝叶斯半朴素贝叶斯分类器EM算法贝叶斯定理引言传送门,讲解到位:https://www.matongxue.com/madocs/279考虑这样一种情况事件A和事件B发生有交集(这里可以用集合概念)那必然有一个条件概率的公式,在A事件发生下,B事件发生的概率:P(B|A) = P(AnB) / P(A),这其实很好理解,用面积的知识,发生A事件的概率面积作为分母,A和B相交的事件概率作为分子,这就求出了A事件发生情况下,B事件发生的概率下面这个公式原创 2022-01-22 19:06:28 · 861 阅读 · 0 评论 -
机器学习——入门基础(决策树)
文章目录决策树熵量化信息量化(信息增益)ID3决策树-信息增益C4.5决策树-增益率CART决策树-基尼指数预剪枝后剪枝决策树中连续值&缺失值决策树名词解释熵一种事物的不确定性信息为消除不确定的事物,调整概率,排除相关的干扰因素噪音不能消除对某件事情的不确定性的事物数据噪音+信息称为数据熵量化1、对于不确定的事件作为单位,比如抛硬币,熵值相当于抛几次硬币的不确定性,比如1次,结果有两种,熵为2;两次,结果有4种,熵为42、对于等概率均匀分布原创 2021-12-23 17:23:02 · 2295 阅读 · 1 评论 -
机器学习——入门基础(线性模型)
文章目录西瓜书机器学习第三章线性回归一元线性回归极大似然估计凸集、凸函数梯度海塞矩阵(Hessian)多元线性回归对数线性回归广义线性模型对数几率回归(逻辑回归)线性判别分析类别不平衡的问题处理方法西瓜书机器学习第三章贴上又一位宝藏up主的传送门二次元的Datawhale的个人空间_哔哩哔哩_bilibili对于在机器学习线性模型的属性判别的时候,分为多种的情况,由上而下依次添加了多个属性,这里着重讲解最后一个无序的离散特征,是将x4、x5、x6三个值作为标准,比如黄色,那保留x4,x5和x6置为0原创 2021-12-03 21:15:52 · 1762 阅读 · 0 评论 -
机器学习——入门基础
西瓜书机器学习第二章数据、某种学习算法、模型、预测科学推理的手段:归纳(特殊到一般)、演绎(一般到特殊)训练出了不同模型,怎么选择?选最简单的贴上宝藏up主的传送门致敬大神的个人空间_哔哩哔哩_bilibili模型评估和选择一种训练集一种算法案例1:拿识别图片中的数字举例,比如每张图片中有一个数字表1字母/特殊含义含义实际案例m样本的数量多少张图片Y正确的结果比如第一张的正确结果是1,第二张是7Y’模型预测出的结果算法模型推测出第一张是1原创 2021-11-25 20:52:23 · 7958 阅读 · 2 评论 -
决策树的基础概念
决策树知识点:是一个树型的结构,根节点、决策点、叶子节点阶段首先了解熵:物体内部的混乱程度:两个事件A、B发生的概率为PA、PB,HA、HB代表A、B事件发生的不确定性,怎么去解释——>PA越大,HA越小,PA越小,HA越大①、举例:两个集合A、B,A里面各类都有[1、2、3、4、5、6、7、8、9、10],B里面基本都是1[1、1、1、1、2、1、1、1、1、1],那很明显B的纯度高,A的纯度低,也就是A的熵值高,B的熵值低那利用数学的思想,其实熵值的计算是有这样一个公式如何原创 2021-11-15 20:54:35 · 763 阅读 · 0 评论 -
关联规则——FP-growth算法
文章目录FP-growth算法构建FP树从FP树中挖掘频繁项集FP-growth算法FP-growth是频繁模式的缩写,直接上例子:下表是所示数据的清单,第一列为购买的id,第二列为物品的项目,1号购物id,它购买的商品是I1、I2、I5TidItems1I1, I2, I52I2, I43I2, I34I1, I2, I45I1, I36I2, I37I1, I38I1, I2, I3, I59I1, I2,原创 2021-10-23 16:50:58 · 285 阅读 · 0 评论 -
聚类——模糊c均值聚类
文章目录模糊c均值聚类目标函数求目标函数中的U、C计算步骤模糊c均值聚类目标函数假设二维空间中有一堆点,点分为两类C1、C2,那么对于任意一个点都有其u1j+u2j=1,u1j表示该点属于C1的隶属值(隶属值越大肯定是越属于这一类的可能性大),同理u2j表示该点属于C2的隶属值,有多少个聚类心就有多少个隶属的值我们当然希望属于C1的点到C1的中心越小越好,到C2的距离越大越好,所以可以采用(u1j的m次方)乘以(该点到C1的欧式距离),同理(u2j的m次方)乘以(该点到C2的欧式距离),这样我们可原创 2021-10-19 20:05:28 · 1376 阅读 · 0 评论 -
HNSW近邻搜索算法
文章目录HNSW近邻搜索算法记录1 NSW算法2 跳表原理3 HNSW算法HNSW近邻搜索算法记录1 NSW算法如果要知道HNSW算法,那首先必须得了解NSW原理,毕竟HNSW是根据HNSW升级转换而来理想状态下,一个好的近邻搜索算法应该要包括三点的内容:1、构图算法的时间复杂度低;2、查找目标的效率高;3、具备"高速公路"机制(高速公路:相隔较远的点的连接,方便快速查找到当前节点)人为规定友节点数量是4(友节点:和自己最近的点的数量),上图解释:1、我们要做的是搜索近邻,那肯定是要选择原创 2021-09-10 16:55:57 · 661 阅读 · 0 评论