机器学习
文章平均质量分 88
mark_yueye
热衷于技术提升,热爱编程。
展开
-
FPGrowth 实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2013-11-12 15:29:12 · 1651 阅读 · 0 评论 -
MinHash
1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard index。转载 2013-11-13 09:48:18 · 998 阅读 · 0 评论 -
因子分析
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让转载 2013-11-12 20:29:13 · 1403 阅读 · 0 评论 -
在线学习
原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样例x转载 2013-11-12 20:31:30 · 859 阅读 · 0 评论 -
高斯混合模型和EM算法
使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联转载 2013-11-12 20:32:20 · 1112 阅读 · 0 评论 -
规则化和模型选择
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模转载 2013-11-12 20:33:53 · 947 阅读 · 0 评论 -
偏最小二乘回归
1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点:如果样例数m相比特征数n少(m(n*n矩阵)的秩小于特征个数(即不可逆)。因此最小二乘法就会失效。 为了解决这个问题,我们会使用PCA对样本X(m*n矩阵)进行降维,不妨转载 2013-11-12 20:39:43 · 2383 阅读 · 0 评论 -
最大流
图-1 如图-1所示,在这个运输网络中,源点S和汇点T分别是1,7,各边的容量为C(u,v)。图中红色虚线所示就是一个可行流。标准图示法如图-2所示: 其中p(u,v) / c(u,v)分别表示该边的实际流量与最大容量。 关于最大流 熟悉了什么是网络流,最大流也就很好理解了。就是对于任意的u∈V-{s},使得p(s,u)的和达到最大。上面的运输网转载 2013-11-12 20:59:37 · 726 阅读 · 0 评论 -
Gibbs sampling
In statistics and in statistical physics, Gibbs sampling or a Gibbs sampler is aMarkov chain Monte Carlo (MCMC) algorithm for obtaining a sequence of observations which are approximated from转载 2013-11-13 09:45:53 · 1840 阅读 · 0 评论 -
MinHash 原理
最小哈希原理介绍MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10}MinHash的基本原理:在A∪B这个大的随机域里,选中的元素落在A∩B这个区域的概率,这个概率就等于Jaccard的相似度最小哈希:转载 2013-11-13 09:48:08 · 1704 阅读 · 0 评论 -
LDA实现
topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user url的聚类。LDA的理论知识不介绍太多,基本就讲了原理以及推导两个内容,原理比较简单,推导过程貌似很简单,就一个变分加上一些参数估计的方法就搞定了,但是具体的细节还没明白,以后慢慢研究转载 2013-11-13 09:46:08 · 1154 阅读 · 0 评论 -
SVM
1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小原理出发,然后引出SVM什么的,还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的logi转载 2013-11-12 20:38:29 · 838 阅读 · 0 评论 -
PCA
PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭示隐藏在复杂数据背后的简单结构。近年来,PCA方法被广泛地运用于计算机领域,如数据降维、图像有损压缩、特征追踪等等转载 2013-11-12 20:22:31 · 1343 阅读 · 0 评论 -
CRF资料
与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文转载 2013-11-26 20:38:57 · 1486 阅读 · 0 评论 -
LDA主题模型
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2013-11-12 16:46:00 · 1014 阅读 · 0 评论 -
ICA
1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microphone)用来记录声音。宴会过后,我们从n个麦克风中转载 2013-11-12 20:25:17 · 1655 阅读 · 0 评论 -
典型关联分析
1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,那么可以建立等式Y=AX如下 其中,形式和线性回归一样,需要训练转载 2013-11-12 20:27:29 · 1038 阅读 · 0 评论 -
增强学习
在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向。 另外如要设计一个下象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法转载 2013-11-12 20:27:50 · 814 阅读 · 0 评论 -
线性判别分析(一)
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签转载 2013-11-12 20:29:44 · 1879 阅读 · 0 评论 -
判别模型、生成模型和朴素贝叶斯模型
1判别模型与生成模型上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根转载 2013-11-12 20:34:24 · 1031 阅读 · 0 评论 -
回归分析方法比较
1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后引出了线性回归的解决方法,然后针对误差问题做了概率解释。之后介绍了logistic转载 2013-11-12 20:35:23 · 3110 阅读 · 0 评论 -
18种典型算法
18 Candidates for the Top 10 Algorithms in Data MiningClassification============== #1. C4.5Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.Morgan Kaufmann Publishers Inc. Google Sch原创 2013-11-12 21:06:23 · 1112 阅读 · 0 评论 -
吉文斯旋转
在数值线性代数中,吉文斯旋转(Givens rotation)是在两个坐标轴所展开的平面中的旋转。吉文斯旋转得名于华莱士·吉文斯,他在 1950 年代工作于阿贡国家实验室时把它介入到数值分析中。目录1矩阵表示2稳定计算3参见4引用矩阵表示吉文斯旋转表示为如下形式的矩阵这里的 c = cos(θ) 和 s = sin(θ) 出现在第 i转载 2013-11-13 09:48:38 · 10099 阅读 · 0 评论 -
SoftMax regression
最终收敛到这个结果,巨爽。smaple 0: 0.983690,0.004888,0.011422,likelyhood:-0.016445smaple 1: 0.940236,0.047957,0.011807,likelyhood:-0.061625smaple 2: 0.818187,0.001651,0.180162,likelyhood:-0.200665smaple 3转载 2013-11-13 09:49:24 · 872 阅读 · 0 评论 -
矩阵分解
LU分解一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以进行LU分解,但反之则不然。目前,在任意域上一个方块矩阵可进行LU分解的充要条件已经被发现,这些充原创 2013-11-13 09:49:38 · 2500 阅读 · 0 评论 -
Mahout推荐算法之ItemBased
基于item的推荐是常用并且高效的一种推荐方式,最重要的是它可以做实事推荐。原创 2014-10-11 13:08:01 · 3676 阅读 · 0 评论 -
Mahout推荐算法之SlopOne
Mahout推荐算法之SlopOne原创 2014-10-11 09:35:27 · 3096 阅读 · 0 评论 -
常用机器学习算法
一、分类算法(一)贝叶斯 (二)决策树ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT(三)神经网络 (四)SVM (五)KNN (六)Bagging 和Boosting (七)最大熵(八)Logistic 回归(九)感知机二、聚类算法(一)基于划分(...原创 2013-11-08 16:20:39 · 110 阅读 · 0 评论 -
Mahout 算法
Mahour 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。一、分类算法(一)Logistic 回归(SGD)(二)Bayesian (三)SVM(四)Perceptron 和W...原创 2013-11-08 16:21:58 · 148 阅读 · 0 评论 -
Mahout 系列之----共轭梯度
无预处理共轭梯度 要求解线性方程组 ,稳定双共轭梯度法从初始解 开始按以下步骤迭代: 任意选择向量 使得 ,例如,对 若 足够精确则退出 预处理共轭梯度 预处理通常被用来加速迭代方法的收敛。要使用预处理子 来求解线性方程组 ,预处理稳定双共轭梯度法从初始解 开始按以下步骤迭...2013-11-09 12:11:10 · 150 阅读 · 0 评论 -
weka 算法大全
关联规则挖掘 (一) Apriori (二) FilteredAssociator (三) FPGrowth (四) GeneralizedSequentislPatterns (五) PredictiveApriori (六) Tertius Cluster (一) CLOPE (二) Cobw...2013-11-10 12:24:43 · 1334 阅读 · 0 评论 -
Mahout系列之----kmeans 聚类
Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。Kmeans算法描述输入:簇的数目k;包含n个对象的数据集D。输出:k个簇的集合。方法:从D中任意选择k个对象作为初始簇中心;repeat;根据簇中对象的均值,将每个对象指派到最相似的簇;更新簇均值,即计算每个簇中对象的均值;计算准则函数;until准则函数不在发生变化。Kmea...2013-11-10 12:26:12 · 166 阅读 · 0 评论 -
伽马贝塔函数
在数理方程、概率论等学科经常遇到以下的含参变量的积分 , 它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数显然,我们应首先考虑伽马函数 ...原创 2013-11-13 09:56:15 · 480 阅读 · 0 评论 -
矩阵分解
LU分解 一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。 即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以进行LU分解,但反之则不然。 目前,在任意域上一个方块矩阵可进行LU分解的充要条件已...2013-11-14 20:58:18 · 225 阅读 · 0 评论 -
Mahout kmeans聚类
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数原创 2014-05-23 15:41:52 · 3674 阅读 · 1 评论 -
Mahout canopy聚类
Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。 在执行Canopy之前需要用将文本合并,然后用Mahout文本向量化模块计算TFIDF,作为文本向量。向量化之后再用Canopy算法聚类。原创 2014-05-23 15:37:53 · 2101 阅读 · 0 评论 -
基于领域相关度和领域一致度的领域术语抽取实现
需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。 每一个子文件夹中都包含该领域的文档,分别原创 2014-05-23 17:05:33 · 1338 阅读 · 0 评论 -
雅克比旋转
在数值线性代数中,雅可比旋转是n 维内积空间的二维线性子空间的旋转Qkℓ,在用做相似变换的时候,被选择来置零n×n 实数对称矩阵A 的非对角元素的对称对:它是雅可比特征值算法的核心运算,它是数值上稳定的并适合用并行计算实现。注意到只有 A 的行 k 和 ℓ 与列 k 和 ℓ 受到影响,并且 A′ 将保持对称。还有给Qkℓ 的明显的矩阵很少被计算,转而计算辅助转载 2013-11-13 09:50:00 · 2413 阅读 · 0 评论 -
LDA
2 Latent Dirichlet Allocation IntroductionLDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间。在LDA中则是通过将文本映射到主题空间转载 2013-11-13 09:50:33 · 1564 阅读 · 0 评论 -
伽马贝塔函数
在数理方程、概率论等学科经常遇到以下的含参变量的积分 , 它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数显然,我们应首先考虑伽马函数转载 2013-11-13 09:50:52 · 7371 阅读 · 0 评论