机器学习
文章平均质量分 93
丁叔叔
这个作者很懒,什么都没留下…
展开
-
利用tf-idf计算文本相似度
文本相似度计算余弦相似度计算个体间的相似性,即将两个个体的特征向量化,通过余弦公式计算两者之间的相似性。原创 2021-02-21 15:24:18 · 19154 阅读 · 3 评论 -
Hmm 和CRF区别
对这块懂得只有12,总结的如下1.HMM是生成模型,CRF是判别模型2.HMM是概率有向图,CRF是概率无向图3.HMM求解过程可能是局部最优,CRF可以全局最优4.CRF概率归一化较合理,HMM则会导致label bias 问题...原创 2020-07-10 11:33:10 · 4262 阅读 · 2 评论 -
CRF条件随机场
就是某点的随机变量y的值和该点关联的所有的点都有关系。一定是前后,可能是多维度的都有关系。hmm,Y在i时刻状态与其前一时刻,即y(i-1) 相关。CRF,Y在i时刻状态与其前后都有关系,即y(i-1)和y(i+1) 都相关。...原创 2020-07-10 11:24:58 · 133 阅读 · 0 评论 -
损失函数
1交叉熵https://blog.csdn.net/chengqiuming/article/details/801388762 MSE原创 2019-11-26 22:58:14 · 60 阅读 · 0 评论 -
GBDT与XGBOOST
https://www.cnblogs.com/jiangxinyang/p/9248154.html Boosting方法实际上是采用加法模型与前向分布算法。在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示。以决策树为基学习器的提升方法称为提升树(Boosting Tree)。对分类问题决策树是CART分类树,对回归问题决策树是CART回归树。GBDT算法 GBDT...原创 2019-05-19 16:29:04 · 127 阅读 · 0 评论 -
集成学习(Adaboost、RandomForest)
https://www.cnblogs.com/jiangxinyang/p/9236385.html 1)个体学习器之间存在强依赖关系,必须串行化生成的序列化方法,这一类的代表是Boosting(常见的算法有Adaboost、GBDT);2)个体学习器之间不存在强依赖关系,可以并行化生成每个个体学习器,这一类的代表是Bagging(常见的算法有RandomForest)。集成算法—Boo...原创 2019-05-17 17:36:49 · 600 阅读 · 0 评论 -
机器学习中应用小技巧
https://www.jianshu.com/p/00243fbff314https://www.jianshu.com/p/28f02bb59fe5原创 2019-05-03 08:08:21 · 101 阅读 · 0 评论 -
特征工程
在工业应用中,feature 比算法重要,数据比 feature 重要,有很多 kaggle 参赛者分享经验时也是说 feature engineering 很重要,今天来写一写特征工程相关的。本文结构Feature Engineering 是什么有什么用怎么用实际应用是什么参考先用例子来直观地了解一下例如要分析声音,直接拿来数据,是什么都学不到的,需要进行 fourier 变...原创 2019-05-03 08:08:28 · 162 阅读 · 0 评论 -
极大似然估计
先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。即它的核心思想是:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。例如,当其他条件一样时,抽烟者患肺癌的概率是不抽烟者的 5 倍,那么当我们已知现在有个人是肺癌患者,问这个人是抽烟还是不抽烟?大多数人都会选择抽烟,因为这个答案是“最有可能”得到“肺癌”这样的结果。为什么要有参数估计当模型已定,但是参数未知...原创 2019-05-03 08:08:36 · 102 阅读 · 0 评论 -
kd树
下面我们来介绍一下当数据量很大情况下,对于快速寻找k最近邻的算法——kd树。搜索使用,根据区分界限, 划分区域,获得最终结果kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树,表示对k维空间的一个划分,构造kd树相当于(相当于只是为了方便的理解,在内存中都是以二叉树的形式存在)不断地用垂直于坐标轴的超平面将K维空...原创 2019-05-03 08:08:57 · 214 阅读 · 0 评论 -
正则化L1和L2
1原创 2019-05-19 20:25:22 · 157 阅读 · 0 评论 -
隐马尔可夫链
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。下面用一个简单的例子来阐述:假设我手里有三个不同的骰子。第一个骰子6个面(称这个骰子为D6),每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰...原创 2019-03-24 10:41:28 · 13248 阅读 · 0 评论 -
LLE
1原创 2019-03-24 10:38:56 · 848 阅读 · 0 评论 -
python机器学习案例系列教程——模型评估总结
https://blog.csdn.net/luanpeng825485697/article/details/79419353回归评估指标分类评估1.1、 混淆矩阵混淆矩阵用在分类器中,是对每一类样本的统计,包括正确分类和错误分类的个数。对于m类样本,可能的错误种类有m2−mm2−m个。用正元组P(Positive)表示我们感兴趣的分类。用负元素N(Negative)表示我们不感兴...原创 2019-06-02 16:26:56 · 467 阅读 · 0 评论 -
聚类结果的评价指标
https://blog.csdn.net/loveliuzz/article/details/78783773原创 2019-09-27 10:57:51 · 1089 阅读 · 0 评论 -
朴素贝叶斯
分类算法根据现有数据,根据目前各个特征得到每个分类结果的概率得到一个大的列表,然后根据需要计算的例子的所有特征进行相乘,分别计算是各个分类的概率,然后对比,大的即为结果。https://mp.weixin.qq.com/s/8u32fsNg4oQIWwSkyWWZxA除了普通的还有 半朴素贝叶斯 是有前提条件的 朴素贝叶斯,即为 有些条件是 会存在一起的,计算时候不太一样。 具体在其他里...原创 2019-09-17 10:06:02 · 71 阅读 · 0 评论 -
PCA SVD LDA区别
https://www.jianshu.com/p/00be0f73d1f5https://www.cnblogs.com/zhusleep/p/9508790.htmlhttps://blog.csdn.net/qq_24464989/article/details/79834564https://blog.csdn.net/Dark_Scope/article/details/5315...原创 2019-06-26 22:55:19 · 387 阅读 · 0 评论 -
聚类补充
初始点 随机的 使用kmean++ 方法进行计算sk-learn 默认是kmean++方法或者https://www.cnblogs.com/yixuan-xu/p/6272208.html原创 2019-06-02 17:04:17 · 249 阅读 · 0 评论 -
SVM 补充
核函数https://www.cnblogs.com/yan2015/p/5183284.htmlhttps://www.cnblogs.com/ooon/p/5750643.html原创 2019-06-02 16:49:30 · 164 阅读 · 0 评论 -
机器学习补充
原创 2019-06-02 16:26:33 · 104 阅读 · 0 评论 -
机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?
https://blog.csdn.net/u014365862/article/details/76360351https://blog.csdn.net/mingtian715/article/details/53789487bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度。模型越复杂,越容易拟...原创 2019-06-02 16:34:10 · 214 阅读 · 0 评论 -
LVQ
学习向量量化简介 :学习向量量化是一种聚类算法,我自己感觉这应该是一种监督学习算法吧,这种算法属于原型聚类,找到初始原型来刻画聚类结构,与一般聚类算法不同的是,(LVQ)这种算法数据样本带有监督信息标记算法思想 :通过数据集不断学习不断移动原型向量的位置,把高维空间划分成 n 个簇,每个原型向量代表一个聚类簇。初始化一组原型向量,初始化的方法一般为,从第q个簇里面随机找一个标记为tq的样本...原创 2019-03-24 10:39:23 · 1484 阅读 · 1 评论 -
LDA
LDA的思想 LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。 可能还是有点抽...原创 2019-03-24 10:39:05 · 2474 阅读 · 0 评论 -
几个常用算法的适应场景及其优缺点
本文主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(c...原创 2019-02-26 17:02:31 · 650 阅读 · 0 评论 -
SVM 支持向量机(1)
http://www.blogjava.net/zhenandaci/category/31868.html原创 2019-02-26 17:01:17 · 96 阅读 · 0 评论 -
EM算法
https://www.cnblogs.com/bigmoyan/p/4550375.html原创 2019-02-26 17:01:29 · 128 阅读 · 0 评论 -
贝叶斯分类(2)
朴素贝叶斯分类器的一个重要假定:分类对应的各个属性间是相互独立的,然而在现实应用中,这个往往难以做到,那怎么办呢?半朴素贝叶斯分类很简单,适当考虑一部分属性间的相互依赖关系,这种放松后的分类称为半朴素贝叶斯分类,其中最常用的策略:假定每个属性仅依赖于其他最多一个属性,称其依赖的这个属性为其超父属性,这种关系称为:独依赖估计(ODE)。上面的求和符号实质兑换为代码不就是一个for循环吗。...原创 2019-02-26 17:01:39 · 189 阅读 · 0 评论 -
贝叶斯分类(1)
可以看到,整个朴素贝叶斯分类分为三个阶段:准备工作阶段,任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、...原创 2019-02-26 17:01:49 · 247 阅读 · 0 评论 -
集成学习
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的"弱学习器"。集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器&am原创 2019-02-26 17:02:41 · 728 阅读 · 0 评论 -
KNN
K-近邻算法(KNN)概述最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果...原创 2019-02-26 17:02:01 · 101 阅读 · 0 评论 -
层次聚类
一、前述聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。2.结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定...原创 2019-03-04 16:57:08 · 5541 阅读 · 0 评论 -
决策树
决策树根据一些 feature(特征) 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。...原创 2019-02-26 17:02:54 · 1455 阅读 · 0 评论 -
科普:大数据、人工智能、机器学习与深度学习都是什么?有什么关系?
https://blog.csdn.net/zw0pi8g5c1x/article/details/80768132转载 2019-01-29 17:37:36 · 152 阅读 · 0 评论 -
集成学习(2)
4.1.1 Bagging之随机森林随机森林样例基学习器:CART决策树构成方法:由多个决策树构成森林生成方法:从样本集中通过重采用的方式产生n个样本利用这n个样本训练时,随机选择部分属性,在这些部分属性中选择一个最优特征进行划分。重复抽样m次,产生m可决策树采用投票/平均的方式进行预测随机性体现在两点:样本选择的随机性特征选择的随机性随机森林的特性:随机森林是一...原创 2019-02-26 17:02:21 · 220 阅读 · 0 评论 -
SVM (2)
SVM入门(二)线性分类器Part 1线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够...原创 2019-02-26 17:01:05 · 158 阅读 · 0 评论 -
常见的六大聚类算法
1原创 2019-03-24 10:40:43 · 215 阅读 · 0 评论 -
softmax回归
1原创 2019-03-24 10:39:14 · 77 阅读 · 0 评论 -
logistic 回归
1原创 2019-03-24 10:41:52 · 120 阅读 · 0 评论 -
DQN
http://www.algorithmdog.com/drl原创 2019-03-10 18:04:14 · 951 阅读 · 0 评论 -
SVM分 身高 使用cv
# 1 思想 分类器 # 2 如何? 寻求一个最优的超平面 分类# 3 核:line# 4 数据:样本 # 5 训练 SVM_create train predict# svm本质 寻求一个最优的超平面 分类# svm 核: line# 身高体重 训练 预测 import cv2import numpy as npimport matplotlib.pyplot as pl...原创 2019-03-24 10:42:01 · 275 阅读 · 0 评论