算法/ML
文章平均质量分 67
zhao_crystal
这个作者很懒,什么都没留下…
展开
-
04 朴素贝叶斯(Naive Bayes)
目录1. 朴素贝叶斯概率模型2. 高斯朴素贝叶斯3. 多项式分布朴素贝叶斯朴素贝叶斯分类器(Naive Bayes classifier),在机器学习中是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯的假设:一个特征出现的概率,与其它特征(条件)独立(特征独立性)(也可以认为是:对于给定分类的条件下,特征独立) 每个特征同等重要(特征均衡性)。1. 朴素贝叶斯概率模型理论上,概率模型分类器是一个条件概率模型。独立的类别变量C有若干原创 2021-11-13 16:17:06 · 1669 阅读 · 0 评论 -
隐马尔科夫模型(HMM)
目录1.隐马尔科夫模型求解步骤(其它大部分模型也均遵循如下路径)2. HMM定义2.1 HMM的两个基本性质2.2 HMM的确定3.HMM的三个基本问题3.1 概率计算问题3.1.1直接计算(暴力算法)3.1.2前向算法和后向算法3.2 参数估计/学习3.2.1若训练数据包括观测序列和状态序列,则HMM的学习非常简单,是监督学习3.2.2若训练数据只有观测序列,则HMM的学习需要使用EM算法,是非监督学习3.3 模型的预测3.3.1预测的近似算...原创 2021-11-24 23:45:47 · 6045 阅读 · 0 评论 -
特征提取方法
在图像识别方向,可通过sift,surf,orb等算法提取特征,然后再喂给一个中等粒度的vector2算法,最后再去做分类。1. sift1.1 sift特征简介SIFT(Scale-Invariant Feature Transform)特征,即尺度不变特征变换,是一种计算机视觉的特征提取算法,用来侦测与描述图像中的局部性特征。实质上,它是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出、不会因光照、仿射变换和噪音等因素而变化的点,如角点转载 2021-11-21 17:51:11 · 19473 阅读 · 0 评论 -
代理 模型
转自:https://zh.wikipedia.org/wiki/%E4%BB%A3%E7%90%86%E6%A8%A1%E5%9E%8B代理模型是工程问题中常用的一个优化方法。当实际问题(高精度模型)计算量很大、不容易求解时,可以使用计算量较小、求解迅速的简化模型来替代原模型,加速优化过程。大多数工程设计问题,需要模拟实验来评估采用不同设计参数时的目标函数和约束函数。 例如,为了找到最佳的机翼形状,常常针对不同的形状参数(长度,曲率,材料等)模拟机翼周围的气流。对于许多实际问题,单次模拟可能需要数分转载 2021-11-20 16:37:33 · 1994 阅读 · 0 评论 -
LDA(Latent Dirichlet allocation)
1. 贝叶斯网络以随机变量做节点所形成的有向无环图。朴素贝叶斯:可以胜任许多文本分类的问题。 无法解决语料中一词多义和多词一义的问题——它更像是词法分析,而非语义分析。 如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准确性。 可以通过增加“主题”的形式,一定程度的解决上述问题:一个词可能被映射到多个主题中——一词多义多个词可能被映射到某个主题的概率很高——多词一义2. 主题模型PLSA/PLSI:probabil...原创 2021-11-14 15:58:28 · 2509 阅读 · 1 评论 -
textRank
目录1. pageRank算法简介2.TextRank算法3. 参考链接1. pageRank算法简介参考论文:http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf假设我们有4个网页——w1,w2,w3,w4。这些页面包含指向彼此的链接。有些页面可能没有链接,这些页面被称为悬空页面。w1有指向w2、w4的链接 w2有指向w3和w1的链接 w4仅指向w1 w3没有指向的链接,因此为悬空页面为了对这些页面进行排名,我们必须计.原创 2021-11-14 14:42:16 · 610 阅读 · 0 评论 -
HDP Model
之前用LDA的方法进行文本聚类,需要指定topic的数量,但是现在如果用HDP的方法,可以自动训练出topic个数。这得益于HDP的构造过程。下面介绍一个比较简单的过程。(构造的过程也就是聚类的过程)中国餐馆过程假设有很多个一样的中国餐馆,每个餐馆内有无数张桌子,每张桌子上可以坐无数个人,第一个人进来可以随意选择一张桌子,并点菜;第二个人进来以一定概率选择前者的桌子并与其共享菜,以一定概率选择新桌子,假设他选择了新桌子;第三个人进来以一定概率选择第一个人的桌子,以一定概率选择第二个人的桌子,以一定概转载 2021-11-13 20:17:31 · 484 阅读 · 0 评论 -
glove
1. glove模型概述Glove是一个分布式词表示模型,该模型是包含词的向量表示的无监督学习算法。这是通过将单词映射到有意义的空间来实现的,其中单词之间的距离与语义相似性有关[1]。训练是在来自语料库的聚合全局词-词共现统计数据上执行的,结果表示展示了词向量空间的有趣线性子结构。它是斯坦福大学的一个开源项目[2],于 2014 年推出。 作为无监督学习词表示的对数双线性回归模型,它结合了两个模型族的特征,即全局矩阵分解和局部上下文 窗口方法。 [3]2. Glove模型应用GloVe 可用于查原创 2021-11-13 17:54:02 · 542 阅读 · 0 评论 -
word2vec
Word2vec是一个用来产生词向量的相关模型。这些模型为浅层双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可以把每个词映射到一个向量,来表示词与词之间的关系。该向量为神经网络的隐藏层[1]。Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。CBOW把一个词从词窗剔除。在CBOW下给定n词围绕着词w,word2vec预测一个句子中其原创 2021-11-13 17:43:40 · 547 阅读 · 0 评论 -
词袋模型(Bag-of-words model)
目录1. 词袋模型的一个例子2. 词袋模型的应用——垃圾邮件过滤词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。1. 词袋模型的一个例子下列文件可用词袋表示:以下是两个简单的文件:(1) Jo原创 2021-11-13 17:37:49 · 2079 阅读 · 0 评论 -
PLSA/PLSI
PLSA/PLSI(probabilistic latent semantic analysi,概率的潜在语义分析)目录1. PLSA概述2. PLSA模型1. PLSA概述考虑到以单词和文档的共现(w,d)形式进行的观察,PLSA将每次共现的概率建模为条件独立的多项分布的混合其中'c'是单词的主题。值得注意的是,模型的主题数量是一个超参数,必须提前设置而不是从数据中估计。第一个公式是对称式,其中 w和 d 都是以类似的方式从潜变量生成(基于条件概率和);第二个公式...原创 2021-11-13 13:33:58 · 499 阅读 · 0 评论 -
ICA(Independent Component Analysis)
ICA的算法过程原创 2021-11-11 23:33:48 · 280 阅读 · 0 评论 -
Latent factor model, LFM
1. LFM算法概述对于基于邻域的机器学习算法来说,如果要给一个用户推荐商品,那么有两种方式。一种是基于物品的,另一种是基于用户的。基于物品的是,从该用户之前的购买商品中,推荐给他相似的商品。基于用户的是,找出于该用户相似的用户,然后推荐给他相似用户购买的商品。但是,推荐系统除了这两种之外,还有其他的方式。例如如果知道该用户的兴趣分类,可以给他推荐该类别的商品。为了实现这一功能,我们需要根据用户的行为数据得到用户对于不同分类的兴趣,以及不同商品的类别归属。1.1 类别归属根据原创 2021-11-11 23:29:28 · 691 阅读 · 0 评论 -
潜在语意索引(LSI)
目录1. LSI概述2. LSI简单实例3. LSI 用于文本相似度计算4. LSI模型总结1. LSI概述潜在语义索引(Latent Semantic Indexing, LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。而SVD及其应用我们在前面的文章也多次讲到,比如:奇异值分解(SVD)原理与在降维中的应用和矩阵分解在协同过.原创 2021-11-11 23:04:48 · 814 阅读 · 0 评论 -
TF-IDF算法
参考链接:https://zh.wikipedia.org/wiki/Tf-idf原创 2021-11-11 22:40:50 · 251 阅读 · 0 评论 -
EM 算法
目录1.概述2.最大似然估计2.1 二项分布的最大似然估计2.2 最大似然函数做参数估计3. EM算法:随机变量无法直接(完全)观察到3.1 欧拉式的解释3.2 Gauss式的解释4. GMM的推导4.1 从直观理解猜测GMM的参数估计4.2 从理论公式推导GMM5. 总结6. 附录:PLSA模型7.参考文献1.概述经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率。EM算法全称:..原创 2021-11-03 08:43:48 · 950 阅读 · 0 评论 -
聚类一之距离聚类
1. 聚类的定义聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。2. 聚类的应用2.1 降维对于M篇文章,D1, D2, D3 …… Dm,假设已做好分词。根据这M篇文章,得到一个词典word_dict = {W1, W2, W3, W4……Wv},假设共有v个词。方式1: 0,1 矩阵(0代表没有出现过,1代表出现过)若D1中出现过W1,则将相应位置置为1,否则置为0。其它同理。——>m纬..原创 2021-10-16 21:40:01 · 7711 阅读 · 0 评论 -
聚类四之标签传递算法(LPA)
目录1.标签传递算法(Label Propagation Algorithm, LPA)1.1 LPA的算法原理2. 参考文献1.标签传递算法(Label Propagation Algorithm, LPA)对于部分样本的标记给定,而大多数样本的标记未知的情形,是半监督学习的问题。1.1 LPA的算法原理LPA将标记样本的标记通过一定的概率传递给未标记的样本,直到最终收敛。举个简单的例子,如下图所示,任意一个未标记的样本A,寻找距离A最近的有标记的7个样本,发现7个距...原创 2021-10-18 21:27:59 · 1546 阅读 · 0 评论 -
聚类三之谱聚类
目录1 谱聚类基本数学概念1.1 实对称阵的特征值是实数1.2 实对称阵不同特征值的特征向量正交2.谱和谱聚类2.1 谱聚类的原理及过程What:谱聚类在做什么?Why:谱聚类为什么这么做?2.2 随机游走(Random walk)拉普拉斯矩阵2.3 谱聚类例子2.4 进一步思考3. 参考文献1 谱聚类基本数学概念1.1 实对称阵的特征值是实数1.2 实对称阵不同特征值的特征向量正交2.谱和谱聚类方阵的谱:方阵作为线性算子,它...原创 2021-10-18 21:22:56 · 405 阅读 · 1 评论 -
聚类二之密度聚类
目录1. 密度聚类算法概述2. DBSCAN 算法2.1 DBSCAN 若干概念2.2 DBSCAN算法的流程3. 密度最大值算法3.1 密度最大值算法的原理3.2 DensityPeak 与决策图Decision Graph3.3 边界和噪声的重认识3.4 不同数据下密度最大值聚类的效果4. Affinity Propagation4.1 Affinity Propagation 算法原理4.2 Affinity Propagation 算法调参5. .原创 2021-10-18 21:10:52 · 2068 阅读 · 0 评论 -
SVM算法(二)
这里是参考邹博老师的视频,记录的一些笔记及自己的理解目录1. 线性可分支持向量机1.1 线性可分支持向量机的原理和推导过程1.2 线性可分支持向量机的一个例子1.3 总结2. 线性支持向量机2.1 线性支持向量机的原理及推导过程2.2 损失函数的分析3. 非线性支持向量机3.1 核函数的由来及作用3.2 核函数介绍3.2.1 多项式核函数3.2.2 高斯核4. 总结4.1 SVM不同参数对分类结果的影响4.2 SVM划分多类别4....原创 2021-09-06 00:24:07 · 500 阅读 · 0 评论 -
Integrated learning——Boosting
目录1. Boosting的引入2. 梯度提升2.1梯度提升算法推导(Gradient Boosting)2.1.1梯度提升决策树GBDT2.2 考虑使用二阶信息(eXtreme Gradient Boosting)2.2.1 基模型为决策树的一个例子2.2.2 小结3. Adaboost3.1 AdaBoost实现原理3.2 AdaBoost举例3.3 AdaBoost为什么最后会收敛?3.4 AdaBoost总结4. 思考问题5. 参考文...原创 2021-09-02 00:49:46 · 228 阅读 · 0 评论 -
Isolation Forest
1. 随机选择特征,随机选择分割点,生成一定深度的决策树iTree,若干颗iTree组成iForest(1)计算iTree中样本x从根到叶子的长度f(x) (2) 计算iRorest中f(x)的总和F(x)2. 异常检测:若样本x为异常值,它应在大多数iTree中很快从根到达叶子,即F(x)较小降采样...原创 2021-08-28 20:18:43 · 102 阅读 · 0 评论 -
机器学习——样本不均衡的处理方法
假定样本数目A类比B类多,且严重不均衡:1. A类欠/降采样Undersampling(1) 随机欠采样(通常,有放回的实验结果更好)(2) A类分成若干子类,分别与B类进入ML模型(3) 基于聚类的A类分割2. B类过采样Oversampling(1) 避免欠采样造成的信息丢失3. B类数据合成Synthetic Data Generation(1) 随机插值得到新样本(2) SMOTE(Synthetic Minority Over-sampling Techniqu原创 2021-08-28 19:57:08 · 222 阅读 · 0 评论 -
RandomForest
目录1. 针对样本数据的随机采样——Bootstrap1.1 Pasting 不放回取样1.2 Bagging 放回取样,更常用1.3 随机森林使用Bagging1.4 随机森林/Bagging 和决策树的关系2. 针对特征进行随机采样Random Subspaces3. 既针对样本,又针对特征进行随机采样4. Extra-Tree5. 随机森林解决回归问题6. 使用随机森林建立计算样本间相似度7. 使用随机森林计算特征重要度1. 针对样本数据的随机采样—..原创 2021-08-27 01:08:00 · 109 阅读 · 0 评论 -
ARIMA(auto-regressive integrated moving average)
目录Q: 给定某航班的乘客变化数据,试使用ARIMA计算预测模型1. 差分2. 滑动平均3. ARIMA3.1 ARIMA(p=2, d=1,q=2)3.2ARIMA(p=8, d=1,q=8)4. ARIMA的代码实现Q: 给定某航班的乘客变化数据,试使用ARIMA计算预测模型1. 差分差分与取对数差分取对数后的自回归预测值2. 滑动平均滑动平均与MA预测3. ARIMA3.1 ARIMA(p=2, d...原创 2021-08-21 15:00:53 · 573 阅读 · 0 评论 -
SoftMax Regression
1. SoftMax回归的原理也可以这样简单的理解:原创 2021-08-21 14:10:25 · 72 阅读 · 0 评论 -
GLM(Generalized Linear Models)
凡是符合指数族分布的随机变量,都可以用GLM(Generalized Linear Models)回归分析原创 2021-08-21 14:07:46 · 774 阅读 · 0 评论 -
傅立叶变换
1. 由相似性理解傅立叶变换傅立叶变换可一理解成是某一个函数和正弦函数的相似性,其是一个函数和正弦函数的乘积。2. 傅立叶变换的使用场景有一个曲线 f(t), 若认为高频部分是噪声,即可先将其转换到频域,滤波(滤掉高频成分),再进行逆傅立叶变换(如下图所示)。3. 傅立叶变换的过程伪代码:再来对比一下4. 实现三角波,并进行傅立叶变换import numpy as npimport matplotlib.pyplot as ...原创 2021-07-11 23:26:52 · 592 阅读 · 3 评论 -
RIPPER算法
参考博客:https://www.cnblogs.com/zengzhihua/p/5458373.htmlhttps://www.cnblogs.com/hgz-dm/p/10886175.html原创 2020-06-27 23:19:46 · 2346 阅读 · 0 评论 -
序列异常检测
参考博客:https://blog.csdn.net/step_forward_ML/article/details/80299068待续原创 2020-06-27 12:41:46 · 467 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
参考博客:https://www.cnblogs.com/skyme/p/4651331.htmlgithub地址:https://github.com/hankcs/Viterbi原创 2020-06-26 23:33:05 · 181 阅读 · 0 评论 -
KNN和K-means的区别
目前理解:KNN,同一类可能有好几个簇Kmeans,同一个类可能只有一个簇,因为一般来说,如果我们知道类别的个数,一般就会将它分为几个簇。但是忽略了,有可能某一类,是分布在两个不同的簇,此时,Kmeans的效果可能就不好。有待用数据进行验证。...原创 2020-06-24 00:01:50 · 641 阅读 · 0 评论 -
Instance Based Learner
该算法和K邻近算法有什么区别呢For numeric valued attributes f (xj , yj ) =(xj − yj)2; for symbolic valued attributesf(x, y) = 0, if the feature values xj and yj are the same, and 1 if they differ.参考文献:Correlation-based Feature Selection for Machine Learni...原创 2020-06-21 22:57:44 · 160 阅读 · 0 评论 -
特征离散化
1. 卡方2. 信息熵参考文献:Correlation-based Feature Selection for Machine Learning Mark A. Hall原创 2020-06-21 22:48:00 · 193 阅读 · 0 评论 -
sklearn之特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也十分强大! 本文原创 2020-06-19 22:04:18 · 826 阅读 · 0 评论 -
PCA(主成分分析)和FA(因子分析)
1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把...原创 2018-04-17 20:32:13 · 9897 阅读 · 0 评论 -
聚类五之总结
Q1:用k-means算法进行分了的结果:一类中有80%的数据,而另一类只有20%的数据,分析出现这种情况的原因每个类变量的分布并不满足球形。数据没有转化为合适的形式。样本本身的分布就不均衡。...原创 2018-04-17 20:33:48 · 267 阅读 · 0 评论 -
机器学习之专业术语
训练集用来估计模型验证集用来确定网络结构或者控制模型复杂程度的参数,测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。但是,当样本总量少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平...原创 2018-04-17 20:19:34 · 205 阅读 · 0 评论 -
SVM和LR(逻辑回归)
SVM的工作原理https://www.youtube.com/watch?v=1NxnPkZM9bclinearSVM和LR算法都是线性分类器注:SVM根据使用核函数的不同,可为线性分类器,也可为非线性分类器SVM算法一般不会过拟合,why?虽然,SVM是将x(不能在低维分割的)映射到无限维,但是只要使你的分类器具有较大的margin,那么模型的阶数就不会很高,SVM会自动的选择一个最低的VC。...原创 2018-04-17 22:42:46 · 281 阅读 · 0 评论