ElasticSearch的查询query DSL和过滤filter DSL

博客不敢常写,主要怕付出不够误导别人。。 但是又想写下来记录一下,所以特此声明:以下总结可能是错误的,请读者自行分辨,我尽量写的准确些。 首先吐槽下,ES的官方文档写的真是烂,然后网上的信息又极其的混乱,逼我硬是得自己写博客。 正文开始 **************************...

2019-04-19 22:43:36

阅读数 21

评论数 0

HMM的Baum-Welch算法和Viterbi算法公式推导细节

前言在上一篇博文中,我简单地介绍了隐马尔科夫模型HMM,并且重点介绍了HMM的三个问题中的第一个,即概率计算问题。首先回顾一下这三个问题都是什么以及解决每个问题的主流算法: 概率计算问题即模型评价问题——前向算法和后向算法 学习问题即参数估计问题——Baum-Welch算法 预测问题即解码问题——...

2016-03-23 21:34:38

阅读数 19127

评论数 4

隐马尔科夫模型HMM的前向算法和后向算法

最近重新看了一遍《统计学习方法》中第十章《隐马尔可夫模型》,更加觉得这本书有浅有深,简洁深刻。HMM模型有三个基本问题:概率计算问题,学习问题和预测问题。今天我就来将其中的概率计算问题的一些细节思考总结一下,就当是笔记吧!主要就是概率计算的前向算法和后向算法。HMM简介隐马尔可夫模型的参数一般称为...

2016-03-22 16:43:33

阅读数 16770

评论数 1

浅谈EM算法的两个理解角度

最近在写毕业论文,由于EM算法在我的研究方向中经常用到,所以把相关的资料又拿出来看了一下,有了一些新的理解与感悟。在此总结一下。EM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步:E步求期望,M步求极大。但是期望是求谁的期望,极大是求谁的极大呢?这里面其实有两种解读角度。“通俗”角...

2016-03-20 16:31:50

阅读数 6762

评论数 2

高斯混合模型的终极理解

高斯混合模型GMM是一个非常基础并且应用很广的模型。对于它的透彻理解非常重要。网上的关于GMM的大多资料介绍都是大段公式,而且符号表述不太清楚,或者文笔非常生硬。本文尝试用通俗的语言全面介绍一下GMM,不足之处还望各位指正。首先给出GMM的定义这里引用李航老师《统计学习方法》上的定义,如下图:定义...

2016-03-18 17:10:01

阅读数 56439

评论数 22

IT菜鸟的未来规划

找工作告一段落了。虽然自己本科专业就是计算机科学与技术,研究生专业是计算机技术,但是,最终顺理成章地进入一家互联网公司上班,开始所谓的“专业对口”地进入职场,还是让我若有所思。趁休假在家,没心情写那些专业领域的博客,那就写写自己的感悟和对未来的规划吧! 先说说我的专业。严格来说,其实IT行业和其...

2015-09-25 23:26:14

阅读数 2202

评论数 3

机器学习中分类器的性能评价指标

我们针对一个具体地问题建立了一个机器学习模型以后,怎么去评价这个模型的好坏呢?这就需要用到分类器的几个性能评价指标。下面简单谈一下。准确率(accuracy)准确率是最常用的分类性能指标。拿最常见的二分类问题来说,我们的模型无非是想要把正类和负类预测识别出来。在测试集中识别对的数量(不论是把正样本...

2015-09-07 19:21:58

阅读数 6551

评论数 1

Hadoop运行wordcount出现“JobTracker is not yet RUNNING”

安装配置完hadoop1.2.1之后,我们就需要跑个例子,首先启动hadoop,在hadoop的home路径中键入:bin/start-all.sh然后在hdfs上创建input文件夹,键入命令:hadoop dfs -mkdir /input然后在input文件夹中放入一些文本文件,键入命令:h...

2015-09-01 18:19:50

阅读数 1829

评论数 0

UserCF和ItemCF终极对比

说是终极对比,明确告诉你,就是在炒作!本文内容主要是我看了项亮的《推荐系统实践》一书,之前对于UserCF和ItemCF也是用的模模糊糊,这次好好整理了一下,加上自己一些总结和心得。UserCF推荐和当前用户相似度高的N个用户产生过行为的物品给当前用户;这些物品是当前用户没有行为过而其他N个用户行...

2015-08-27 16:24:23

阅读数 5049

评论数 0

我对说话人识别/声纹识别的研究综述

GMM-UBM系统框架 GMM-UBM的核心思想是用混合高斯函数去拟合特征在高维空间的概率密度分布,在训练说话人模型的时候,由于注册时说话人的数据稀疏,通常利用一个通用背景模型(Universal Background Model,UBM)和少量的说话人数据,通过自适应算法(如最大后验概率MAP...

2015-08-25 10:50:55

阅读数 21267

评论数 5

机器学习算法需要注意的一些问题(二)

训练样本大小选取的问题模型学习的准确度与数据样本大小有关,那么如何展示更多的样本与更好的准确度之间的关系呢?我们可以通过不断增加训练数据,直到模型准确度趋于稳定。这个过程能够很好让你了解,你的系统对样本大小及相应调整有多敏感。所以,训练样本首先不能太少,太少的数据不能代表数据的整体分布情况,而且容...

2015-08-12 14:23:25

阅读数 2986

评论数 0

机器学习中梯度下降法和牛顿法的比较

在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函...

2015-08-10 19:25:05

阅读数 13376

评论数 1

机器学习中关于判断函数凸或凹以及最优化的问题

在很多机器学习算法中,都会遇到最优化问题。因为我们机器学习算法,就是要在模型空间中找到这样一个模型,使得这个模型在一定范围内具有最优的性能表现。因此,机器学习离不开最优化。然而,对于很多问题,我们并不总能够找到这个最优,很多时候我们都是尽力去找到近似最优,这就是解析解和近似解的范畴。很多最优化问题...

2015-08-10 16:26:50

阅读数 19379

评论数 0

从集成学习到模型的偏差和方差的理解

模型的偏差和方差的权衡和讨论其实是贯穿在整个机器学习理论当中的。机器学习的每一个算法或者模型都有对这两方面的判断和取舍。今天在看scikit-learn文档关于集成学习的论述中又提到偏差和方差,所以我想谈一谈我对这两个概念的理解。集成学习集成学习是一种组合类型的学习方法。它采用多个基分类器组合成一...

2015-08-06 15:01:53

阅读数 5441

评论数 1

声纹识别之PLDA算法描述

之前我写过《我对说话人识别/声纹识别的研究综述》,本篇基本上可以是这个综述的续写。其实,写的也没有什么深度,想获得深度信息的朋友们可以不用往下看了,还不如下载几篇领域内的国内博士论文看看。为什么是国内呢?因为国内博士论文前面的综述写的还不错,嘿嘿~我写这个主要是给不熟悉这个领域内的朋友看的,用通熟...

2015-08-05 09:59:41

阅读数 16238

评论数 0

机器学习算法需要注意的一些问题

对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧,我们需要正例和负例样本的标注。如果我们拿到的训练数据正例很少负例很多,那么直接...

2015-07-28 19:22:58

阅读数 3423

评论数 2

逻辑回归与决策树在分类上的一些区别

转自:http://www.itongji.cn/article/121930092013.html营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是...

2015-07-23 15:14:30

阅读数 7092

评论数 0

Python字典key值查询效率低的问题

最近用Python脚本处理数据。需要建立了一个字典,大概有200w个键值对,然后将这个字典用pickle存起来。在建立这个字典的时候,发现特别的慢。于是乎,尽量减少输出语句。发现还是很慢。估计了一下居然要超过一天!然后,我耐心地一行代码一行代码地分析运行效率的问题。最后发现,瓶颈竟然是在这一句: ...

2015-07-18 12:53:03

阅读数 4675

评论数 4

总结PageRank

PageRank 当我们根据关键词搜索互联网上的内容时,对于不止一个的搜索结果,谁先谁后呢?PageRank就是为了解决这个问题而生的。 PageRank,一个对网页进行排序的算法,由佩奇和布林为Google设计。该算法将整个互联网中的网页看做是一个整体,不考虑具体每一个网页的内容属性,而...

2015-07-17 17:14:25

阅读数 602

评论数 0

Apriori算法简单总结

关联分析是一种在大规模数据集中寻找有趣关系的任务。Apriori是解决这一问题的基本算法。这个算法也是数据挖掘的入门算法。 首先明确两个个概念:频繁项集和关联规则。 - 频繁项集:经常出现在一块儿的物品的集合。 - 关联规则:暗示两种物品之间可能存在很强的关系。 那么,如...

2015-07-16 16:42:39

阅读数 2299

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭