Algorithm
文章平均质量分 80
大愚若智_
.
展开
-
spark.mllib源码阅读-聚类算法1-KMeans
KMeans聚类是聚类分析比较简单的一种,由于其简单、高效、易于理解实现等优点被广泛用于探索性数据分析中。 关于KMeans算法的介绍、分析的相关文章可谓汗牛充栋,留给我能写的东西并不多了,在这里,我通过罗列相关文章的方式,将涉及KMeans聚类的各方面做一个尽量详尽的总结。最后简单介绍一下Spark下KMeans聚类的实现过程。KMeans聚类算法原理:关于KMeans算法的原理及单机版实现,可原创 2017-04-21 15:16:18 · 4384 阅读 · 1 评论 -
TensorFlow实验环境搭建
初衷:由于系统、平台的原因,网上有各种版本的tensorflow安装教程,基于linux的、mac的、windows的,各有不同,tensorflow的官网也给出了具体的安装命令。但实际上,即使tensorflow安装成功,还是会遇到需要安装其他辅助工具的情况,同时,换一台机器又要面临整个环境重新安装的问题。由于docker制作一次镜像,可以拷贝重复使用的原因,在这里探讨一下在docker上制作一原创 2016-12-02 11:48:59 · 3382 阅读 · 1 评论 -
CNN在中文文本分类的应用
深度学习近一段时间以来在图像处理和NLP任务上都取得了不俗的成绩。通常,图像处理的任务是借助CNN来完成的,其特有的卷积、池化结构能够提取图像中各种不同程度的纹理、结构,并最终结合全连接网络实现信息的汇总和输出。RNN由于其记忆功能为处理NLP中的上下文提供了途径。原创 2016-11-25 22:45:18 · 30813 阅读 · 32 评论 -
聊聊机器学习中的无监督学习
无监督式机器学习的两大类问题:聚类问题和Autoencoder问题,聚类问题解决的其实是模糊...原创 2016-11-02 13:35:53 · 12068 阅读 · 2 评论 -
人体呼吸信号的数据挖掘
生理信号中的呼吸信号是一类典型的时间序列信号,可以从移动设备检测到的心电信号中提取得到或者采用其它方式获取,对呼吸信号进行分析并挖掘其中的异常呼吸事件 对研究人体睡眠质量及其他心脑血管疾病有极大的帮助。通常这一类信号的处理会包括两大类过程:信号预处理1、从原始信号中提取呼吸信号: 这一步因原始信号的不同而存在较大的差异,在此不做叙述2、提取得到的呼吸信号的前处理: 通常为了后续做数据挖掘、信号检测原创 2016-09-14 23:37:39 · 11697 阅读 · 2 评论 -
logistic分类
对Logistic回归模型,个人做的一些总结:公式就不套用了,教材上面基本都有而且详细。logistic回归用图形化形式描述如下:logistic回归是一种简单高效的分类模型,它不仅可以通过学习来预测样本的类别,还可以得到样本属于各个类别的概率信息。因此在机器学习中得到了及其广泛的应用。同时,它还有比较与其他模型的一些优点:(1)logistic回归模型是线性模型,线性模型原创 2016-06-18 11:16:31 · 2175 阅读 · 0 评论 -
再谈机器学习中的归一化方法(Normalization Method)
机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时,数据预处理的效果也直接影响了后续模型能否有效的工作。然而,目前的大部分学术研究主要集中在模型的构建、优化等方面,对数据预处理的理论研究甚少,可以说,很多数据预处理工作仍然是靠工程师的经验进行的。从业数据建模/挖掘工作也有近2年的时间,在这里结合谈一谈数据预处理中归一化方法。在之前原创 2015-03-06 19:49:43 · 96712 阅读 · 7 评论 -
机器学习中的特征工程总结一
俗话说“磨刀不误砍材工”,在机器学习领域,进行特征工程相关的工作就相当于磨刀了。那么,什么是特征工程呢?通俗来讲,特征工程就是为了使模型在未知数据集上获得更好预测精度而对原始数据集进行转换的一系列过程。特征工程的具体过程则由以下四点决定:1、评估模型优劣的方法、指标是什么?(RMSE还是AUC等)2、要解决的问题属于分类问题还是回归问题..3、具体使用的模型是什么?(决策树、svm原创 2016-03-22 21:44:07 · 4073 阅读 · 2 评论 -
深度学习&机器学习资源汇总1
本篇博客的目地,是对工作学习过程中所遇所见的一些有关深度学习、机器学习的优质资源,作分类汇总,方便自己查阅,也方便他人学习借用。 主要会涉及一些优质的理论书籍和论文、一些实惠好用的工具库和开源库、一些供入门该理论入门所用的demo等等。 由于本博客将不定期更新,尽量将较为前沿的深度学习、机器学习内容整理下来,需要转载的同学尽量附上本文的链接,方便获得最新的内容。原创 2016-04-03 14:55:30 · 1234 阅读 · 0 评论 -
使用spark ml pipeline进行机器学习
一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则存在着可行性,对利用spark进行机器学习的用户来说,流水线式机器学习比单原创 2016-03-20 13:29:45 · 19052 阅读 · 15 评论 -
短文本情感分析
一、什么是情感分析:情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的进行判断。情感程度分析主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度。例如“喜爱”和“敬爱”都是褒义词,但是“敬爱”相对来说褒义的程度更原创 2016-10-12 21:09:37 · 29335 阅读 · 7 评论 -
排列熵算法简介及c#实现
一、 排列熵算法简介:排列熵算法(Permutation Entroy)为度量时间序列复杂性的一种方法,算法描述如下:设一维时间序列:采用相空间重构延迟坐标法对X中任一元素x(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:则序列X的相空间矩阵为:原创 2015-06-12 19:58:27 · 11670 阅读 · 0 评论 -
spark.mllib源码阅读-分类算法4-DecisionTree
本篇博文主要围绕Spark上的决策树来讲解,我将分为2部分来阐述这一块的知识。第一部分会介绍一些决策树的基本概念、Spark下决策树的表示与存储、结点分类信息的存储、结点的特征选择与分类;第二部分通过一个Spark自带的示例来看看Spark的决策树的训练算法。另外,将本篇与上一篇博文"spark.mllib源码阅读bagging方法"的bagging子样本集抽样方法结合,也就理解了Spark下的决原创 2017-04-11 09:58:52 · 4382 阅读 · 0 评论 -
spark.mllib源码阅读-分类算法1-LogisticRegression
传统的线性回归模型z(x)=wx+b,其输出为负无穷至正无穷的区间,如果输出值为一个事件发生的概率,那么就要求输出区间为[0,1],传统的一些线性回归模型就不能work了,一个很简单的想法就是在z(x)线性输出的基础上增加一个从0到1光滑的单调递增的函数。同时对于很多事件来说,在事件确定发生的概率区间内 条件的微弱变化几乎不影响事件的发生,而在事件发生与不发生的交界区间 条件的微弱变化对事件发生的原创 2017-03-25 15:20:47 · 3057 阅读 · 0 评论 -
spark.mllib源码阅读-回归算法2-IsotonicRegression
IsotonicRegression是Spark1.3版本引入的一个带约束的回归模型。IsotonicRegression又称保序回归,保序回归确保拟合得到一个非递减逼近函数的条件下 最小化均方误差,相关的介绍可以阅读http://fa.bianp.net/blog/2013/isotonic-regression/,借用该文的一篇图来说明一下图中横轴为序号,纵轴y为输入数据,假设x为要拟合的数据原创 2017-03-24 13:22:53 · 2673 阅读 · 0 评论 -
随机梯度下降法
一、考虑一下线性方程组原创 2014-07-26 21:45:43 · 68836 阅读 · 25 评论 -
spark.mllib源码阅读-分类算法3-SVM
Spark2.1版本目前只实现了linear SVM(即线性支持向量机),非线性SVM及核技巧目前还没有实现。因此本篇主要介绍的是Spark中的线性SVM及参数求解。SVM的理论及推导可以参考支持向量机通俗导论(理解SVM的三层境界)由于Spark实现的是线性SVM,在此,我将简单介绍一下线性分类器与线性可分、线性SVM、线性不可分下的线性SVM等基本概念与原理,最后再结合Spark介绍以下线性S原创 2017-03-31 13:35:01 · 3486 阅读 · 0 评论 -
spark.mllib源码阅读-分类算法2-NaiveBayes
朴素贝叶斯模型简述:贝叶斯模型通过使用后验概率和类的概率分布来估计先验概率,具体的以公式表达为P(Y)可以使用训练样本的类分布进行估计。如果X是单特征也很好估计,但如果X={x1,x2,..,xn}等n个特征构成,那估计n个特征的联合概率分布P(X)=P(x1,x2,...,xn)将变得非常困难。由于贝叶斯模型的参数难于估计,限制了其的应用。朴素贝叶斯模型是贝叶斯模型的简化版本,通过假设特征之间独原创 2017-03-29 17:47:08 · 3618 阅读 · 0 评论 -
聊聊在线教育的推荐系统
今天不谈推荐系统架构,也不谈具体的推荐算法,仅从一个本人亲历过的推荐产品来讨论个性化推荐怎么做更友好一点的问题。 在线教育产品中主要存在着两大类的推荐需求,题目、视频等教育资源的推荐和 辅导老师的推荐,这两大类的推荐都是将平台上的资源与实际需求者进行匹配。下面主要讨论题目、视频等教育资源得推荐为例。实际上,推荐系统是用户与平台资源池进行交互的纽带,其为用户较小信息负载,将最合理的资源推荐给用户,进原创 2017-01-03 15:51:23 · 4544 阅读 · 0 评论 -
CNN和RNN在NLP任务中的对比实验
这篇博客主要是拜读IBM Research发表的论文“Comparative Study of CNN and RNN for Natural Language Processing”,结合自己的体会做一个阅读笔记。 目前深度学习主要包括CNN(卷积神经网络)和RNN(递归神经网络)两大阵营,基于卷积的CNN对识别目标任务的结构具有一定的优势,而RNN由于其记忆功能对序列识别建模具备原创 2017-02-16 10:42:27 · 11303 阅读 · 0 评论 -
HMM与序列标注
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数(隐状态)的马尔可夫过程。其难点是从可观察的参数中(显状态)确定该过程的隐含参数(隐状态),然后利用这些参数来作进一步的分析。举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推特,我前天公园散步原创 2016-12-26 16:29:33 · 7388 阅读 · 0 评论 -
2015年总结
时光如梭,稍不留神,就又到年底了。每至此时,都不免有些感慨,除了脸上增加的皱纹,岁月还带给了我一些什么呢?2015年,可谓平静又有波澜。辞掉了一份平静如水的工作,踏上了快节奏的工作路途。毕业至此2年有余,一至在想自己到底需要什么样的生活、适合什么样的工作,在平静安逸的工作中挣扎、纠结每天的无所事事的状态,自己并不喜欢。心理学上说:人要取得进步,就必须不断突破自己的心理舒适区,进入不适应状态,不原创 2016-01-09 11:24:24 · 792 阅读 · 0 评论 -
2014年工作总结
即将农历新年了,意味着传统意义上的2014年也就要成为历史了,这里总结一下2014年工作生活吧:一、工作方面:2014年是穿戴式医疗设备概念萌芽的一年,也是医疗设备行业、医疗服务行业快速发展的一年吧。信息技术迅速发展,并把触角伸向了极为保守、传统的医疗行业,也带给了普通人就业、发展的机会,2014年初,个人也从传统的IT(芯片制造)进入了医疗设备、服务行业,从制造业数据分析的角色转原创 2015-01-22 21:35:00 · 1140 阅读 · 0 评论 -
贝叶斯定理与朴素贝叶斯分类器
朴素贝叶斯由于其简单易用、易于理解的特点,已经广泛应用于文本分类、医疗诊断的应用场景。下面就简单总结一下朴素贝叶斯分类器中的相关知识点:一、贝叶斯定理:朴素贝叶斯分类器是一种统计学的分类方法,其基于朴素贝叶斯定理,给定一个样本观测点,预测其属于某一类的概率。先回顾一下什么是贝叶斯定理:首先引入概率中的两个基本公式,1、条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P原创 2015-01-07 19:53:28 · 4007 阅读 · 1 评论 -
PCA与特征选取
一、什么是PCAPCA,即PrincipalComponents Analysis,主成份分析原创 2014-07-21 18:36:06 · 8073 阅读 · 3 评论 -
分类器评价指标
在分类问题中,一个实例可能被判定为一下四种类型之一:TP(True Positive):被模型预测为正的正样本;FP(False Positive):被模型预测为正的负样本;FN(False Negative):被模型预测为负的正样本;TN(True Negative):被模型预测为负的负样本;分类器评价指标定义及计算方式为:准确率:对整个样本集的判定能力,即将正的原创 2014-10-31 20:44:23 · 10784 阅读 · 2 评论 -
机器学习中的维数灾难
一.引言这里我们将要tao'l翻译 2014-08-29 18:46:12 · 41297 阅读 · 14 评论 -
数据预处理之归一化
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来转载 2014-10-11 16:49:12 · 11971 阅读 · 0 评论 -
从极大似然函数到EM算法
最近看斯坦福大学的机器学习课程,原创 2014-08-13 18:14:06 · 3286 阅读 · 2 评论 -
中值滤波与椒盐噪声
盐噪声也称为脉冲噪声,是图像中经常见到的一种噪声,它是一种随机出现的白点或者黑点,可能是亮的区域有黑色像素或是在暗的区域有白色像素(或是两者皆有)。盐和胡椒噪声的成因可能是影像讯号受到突如其来的强烈干扰而产生、类比数位转换器或位元传输错误等。例如失效的感应器导致像素值为最小值,饱和的感应器导致像素值为最大值。原创 2014-08-06 18:54:41 · 26530 阅读 · 0 评论 -
matlab学习日志之并行运算
原文地址:matlab并行计算转载 2014-08-03 16:59:46 · 2557 阅读 · 0 评论 -
[信号处理技术]关于EMD的产生
通俗易懂,有助于理解EMD和HHT,就原封不动的搬过来了。原文链接:转载 2014-07-29 10:12:09 · 3580 阅读 · 0 评论 -
统计分析中的假设检验
关于假设检验假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:H0:原假设或零假设(null hypothe转载 2014-12-05 14:31:20 · 8527 阅读 · 0 评论 -
聚类算法小结
一、聚类:聚类也称之为自动分类,是一种无监督的学习方法。算法的原则是基于度量数据对象之间的相似性或相异性,将数据对象集划分为多个簇;相比较于分类技术,聚类只需要较少的专家知识(领域知识),就可以自动发掘数据集中的群组。二、基本的聚类方法包括:1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在原创 2015-01-02 14:55:10 · 1176 阅读 · 0 评论 -
K均值聚类的失效性分析
K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析。因此,K均值实际上是一个最优化问题。在一些已知的文献中论述了K均值聚类的一下一些缺点:K均值假设每个变量的分布是球形的;所有的变量具有相同的方差;类具有相同的先验概率,要求每个类拥有相同数量的观测;上述三条任何一翻译 2016-01-02 11:28:43 · 5408 阅读 · 0 评论 -
一个线性优化问题--仓库配货
仓库配货问题:有A、B、C、D…等n各仓库,实际拥有的货物数量为,现在有总量为T的货物,需要按照一定的比例从各个仓库获取,然而有些仓库的实际数量可能不够、而有些仓库的实际数量可能有多余。部分仓库不够的差额需要从其余有多余货物的仓库中取足其差额。 当某一个仓库的货物不足时,如B仓库时,则将B仓库的差额按分配比例分发给其他仓库进行调配,是最终的实际分配总数尽量与需求总数T一致,同时各个原创 2015-10-25 11:27:51 · 1405 阅读 · 0 评论 -
对N各集合中的任意元素进行排列组合问题
小李去市场买菜,有蔬菜(茄子、黄瓜、大白菜...等k中素菜),和肉类(牛肉,羊肉,鸡肉...等m种荤菜),及点心(麻饼,桃酥,枣花...等n中点心),现在老婆要求每天一荤一素一点心 并且每天的样式要尽可能不重复,这样子有多少中买菜的方案。问题转化为排列组合问题就是,已知存在N个集合S1、S2.....Sn,每个集合各有m1、m2......mn各元素。依次有序从各个集合当中任意取一个元素,生成原创 2015-10-24 21:40:42 · 2580 阅读 · 0 评论 -
LM算法与非线性最小二乘问题
摘录的一篇有关求解非线性最小二乘问题的算法--LM算法的文章,当中也加入了一些我个人在求解高精度最小二乘问题时候的一些感触:LM算法,全称为Levenberg-Marquard算法,它可用于解决非线性最小二乘问题,多用于曲线拟合等场合。LM算法的实现并不算难,它的关键是用模型函数 f 对待估参数向量p在其邻域内做线性近似,忽略掉二阶以上的导数项,从而转化为线性最小二乘问题,它具有收敛速度快转载 2015-09-20 11:23:04 · 15435 阅读 · 3 评论 -
机器学习与模式识别学习总结(一)
有幸用最近两个月的业余时间把”统计机器学习”一书粗略的学习了一遍,同时结合“模式识别”、“数据挖掘概念与技术”的知识点,对机器学习的一些知识结构进行梳理与总结:机器学习包括两个主要问题1、学习什么,2、怎么学习。首先来梳理一下学习什么一、学习什么1. 要解决什么问题?机器学习中主要解决以下三类问题:a) 监督学习问题:给定输入输出集(即人工标记的样本原创 2015-04-14 20:28:58 · 8838 阅读 · 0 评论 -
时间序列的归一化方法
在机器学习、模式识别的模型训练之前,通常需要对数据进行预处理工作,在哪种情况下选用哪种预处理方法,仍然是很多工作人员比较头疼的事情。本人前面的两篇博客总结了一些比较常用的数据归一化方法:数据预处理之归一化再谈机器学习中的归一化方法这两篇博客介绍的都是针对非时间序列的数据进行的一些常规操作。由于时间序列的特殊性(1、相邻序列之间的模式相关性,2、在时间维度上数据是不断产生的),因原创 2015-03-30 19:16:42 · 25107 阅读 · 9 评论