机器学习
卖小孩的咖啡
目标跟踪 C JAVA matlab opencv 计算机 机器学习
展开
-
Brief History of Machine Learning
Brief History of Machine Learning转自http://www.erogol.com/brief-history-machine-learning/My subjective ML timelineSince the initial standpoint of science, technology and AI, scientist转载 2015-04-27 11:12:08 · 705 阅读 · 0 评论 -
【译】潜在语义分析Latent Semantic Analysis (LSA)
目录目录概述TutorialLSA的工作原理 How Latent Semantic Analysis Works实例A Small ExamplePart 1 - Creating the Count MatrixPython - Import FunctionsPython - Define DataPython - Define LSA ClassPython - Parse翻译 2015-08-11 19:49:04 · 11405 阅读 · 1 评论 -
转-聚类算法总结
转载-聚类算法总结:聚类算法的种类:基于划分聚类算法(partition clustering)k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和转载 2015-09-25 17:25:27 · 735 阅读 · 0 评论 -
聚类笔记(上):基本概念
目录目录概述划分方法Kmean算法K中心法层次聚类簇间距离基于密度基于网格聚类评估聚类趋势确定簇数经验值对于层次聚类的簇数确定3聚类簇评估4非监督评估方法有监督评估方法参考概述划分方法、层次、基于密度、基于网格 划分方法Kmean算法 kmean算法不能保证收敛于与全局最优,收敛结果依赖于初始化中心的选择。实际应用常用不用的初始化中心进行多次Kmean k原创 2015-09-25 18:18:44 · 1533 阅读 · 0 评论 -
机器学习概述
机器学习概述标签(空格分隔): 机器学习,台大,笔记机器学习概述引言基本概念机器学习问题的形式化References Resources引言 本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。 假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判原创 2016-01-04 18:35:48 · 576 阅读 · 0 评论 -
回归&logistics回归笔记-七月算法(julyedu.com)4 月机器学习算法班学习笔记
过拟合logistic回归损失函数性能分析关于样本处理过拟合解决方法 正则化 为什么正则化能抑制过拟合:从线性回归的角度,过拟合就是拟合的曲线过于扭曲,从系数看,就是高次项的系数不为零logistic回归损失函数为什么logistic回归不用和线性回归类似的损失函数? 这是应为这是非凸的 性能分析优点 - LR能以概率的形式输出结果, 而非只是0,1判定 - LR的可解释性强, 可原创 2016-05-12 00:20:54 · 1369 阅读 · 0 评论 -
深度下降法轨迹-七月算法(julyedu.com)4 月机器学习算法班学习笔记
课程大纲一般的有约束优化问题凸优化问题证明深度下降法的轨迹是正交的深度下降法步骤细化了下降步进的计算公式课程大纲核心思想:把问题转换为凸优化问题一般的有约束优化问题等式约束 不等式约束 KKT: 有约束优化问题的解的必要条件; KKT可以用于求约束优化问题的极值点; 相对于无约束时,极值点f(x)的一阶导数为0凸优化问题当问题是凸优化时,问题变得更简单了 1. 局部最优价等价于全局原创 2016-05-12 00:16:48 · 1908 阅读 · 0 评论 -
机器学习初步与微积分概率论-七月算法(julyedu.com)4 月机器学习算法班学习笔记
高等数学回顾夹逼定理泰勒公式凸函数概率论商品推荐-惊喜度常见分布统计量小结高等数学回顾夹逼定理泰勒公式从泰勒公式看熵和基尼系数的关系 凸函数 两个要点 1. 定义域是凸集 2. 函数服从Jensen不等式重要性质 概率论商品推荐-惊喜度常见分布统计量小结原创 2016-05-05 21:27:39 · 750 阅读 · 0 评论 -
数理统计与参数估计-七月算法(julyedu.com)4 月机器学习算法班学习笔记
概率统计概率统计与机器学习的关系统计量期望方差与协方差重要定理和不等式Jensen不等式切比雪夫不等式大数定理中心极限定理以下内容摘抄于七月算法(julyedu.com)4 月机器学习算法班课堂讲义概率统计概率统计与机器学习的关系统计量期望概念 性质 方差与协方差方差 协方差 协方差与独立/不相关 协方差的意义 重要定理和不等式Jensen不等式从概率的角度看Jensen原创 2016-05-05 21:55:57 · 2608 阅读 · 0 评论 -
极大似然估计-七月算法(julyedu.com)4 月机器学习算法班学习笔记
从贝叶斯看极大似然估计极大似然估计幂律分布以下内容摘抄于七月算法(julyedu.com)4 月机器学习算法班课堂讲义从贝叶斯看极大似然估计由贝叶斯公式可得 maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)max P(A_i|D) = max \frac{P(D|A_i)P(A_i)}{P(D)} 其中P(D)P(D)是客观的,可视为常量 →maxP(D|Ai)P(Ai)\ri原创 2016-05-05 22:41:56 · 1958 阅读 · 0 评论 -
jblas-1.2.4.jar : spark第三方依赖打包
简介依赖设置应用部署简介在实现基于spark mllib的ALS协同滤波例子: Spark机器学习_ (南非) 彭特里思 (nick pentreath)(著) 蔡立宇;黄章帅; 周济民(译) 人民邮电出版社 2015-09-01 P72其中使用了jblas包的接口,在我的应用中也使用了这个包的接口import org.apache.spark.SparkContextimport原创 2016-05-06 18:01:55 · 4776 阅读 · 1 评论 -
lazy-linalg: spark第三方依赖打包
简介基于sbt的方法基于IDEA的方法简介本次任务是对打包第三包 lazy-linalg 该包,包含了sbt的脚本基于sbt的方法下载源码解压后,在命令行模式(cmd)进入到源码所在的地址 E:\Workdir\ScalaWorkdir\lazy-linalg-master 然后执行命令:sbt这种方法简单,但是编译过程需要联网下载大量依赖的jar包 由于受到联网的影响,所以还未成功基原创 2016-05-06 18:04:37 · 1424 阅读 · 0 评论 -
SVD在推荐系统中的应用
参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵转载 2015-04-27 01:14:43 · 340 阅读 · 0 评论 -
SVM概述
目录目录SVM概述References ResourcesSVM概述线性SVM是寻找分类间隔最大的ωTx+b=0 \omega^{T}x+b =0,即为最小化∥ω∥\left \| \omega \right \|。在引入拉格朗日对偶问题和KKT条件后,问题简化为关于∥α∥\left \| \alpha \right \|的最优化问题,最后通过SMO快速求解出∥α∥\left \| \alp原创 2015-04-06 12:25:03 · 490 阅读 · 0 评论 -
主成分分析
一 相关知识二 主成分分析PCA1 概述原理分析主成分分析的一般目的参考一 相关知识均值、协方差矩阵:样本均值M=1N(X1+X2+⋯+XN)M = \frac{1}{N}\left( {{X_1} + {X_2} + \cdots + {X_N}} \right)中心化:Xk∧=Xk−M{\mathop X\limits^ \wedge _k} = {X_k} - M B=原创 2015-02-26 17:31:31 · 1033 阅读 · 0 评论 -
简单线性回归分析【笔记】
回归分析是统计学的核心,是一个广义概念,通常指用一个或多个自变量(也成解释变量、预测变量)来预测应变量(也称因变量、校变量或结果变量)。简单线性回归只包括一个应变量和一个自变量。这种回归也称一元线性回归原创 2015-03-19 00:59:50 · 8661 阅读 · 0 评论 -
RANSAC算法
『原文地址』大概太久没更新了,压力就越大了,工作比较忙,人比较懒,写一篇高质量的文章还是比较耗时间的,这样吧,以后就发一些我觉得比较实用的东西吧,就那么一个小片段,这样我也比较有时间,比较有动力,假如你有什么建议可以留言。今天介绍的这个东西RANSAC是前不久接触到的东西,最网上的资料进行总结结合自己的实际应用给大家讲讲我的理解。RANSAC是“RANdom SAmple Consensus(随机抽转载 2015-03-04 15:26:47 · 446 阅读 · 0 评论 -
【转】机器学习中距离和相似性度量方法
漫谈:机器学习中距离和相似性度量方法 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0转载 2015-03-20 17:01:15 · 687 阅读 · 0 评论 -
【转】稀疏表达:向量、矩阵与张量(上)
稀疏表达:向量、矩阵与张量(上)最近在研读关于回归的知识,想起过去研究过的稀疏表示,就拿这篇博客复习一下,这是一篇挺不错的入门资料。申明:本文非笔者原创,原文转载自:http://www.cvchina.info/2010/06/01/sparse-representation-vector-matrix-tensor-1/稀疏表达是近年来SP, ML, P转载 2015-03-22 01:40:53 · 513 阅读 · 0 评论 -
分类器训练的过拟合问题和处理方法【未整理完成】
一 过拟合模型训练过程中过度拟合训练集,将训练样本中的噪声(错误的样本)学习进去,使得训练误差不断降低和模型复杂度不断提高,最终导致泛化误差升高的一种现象 成因:噪声(错误的样本),样本过少/缺乏代表性 二 预测泛化误差【1】P110估计泛化误差用于在训练过程中对模型的泛化误差做估计,可用于优化模型建立,避免模型过拟合。这里关于泛化误差的估计,是在训练过程中进行。要区别于模原创 2015-04-04 02:05:02 · 4160 阅读 · 0 评论 -
凸优化之优化、对偶、KKT-七月算法(julyedu.com)4 月机器学习算法班学习笔记
优化一般优化问题的基本形式凸优化的基本形式共轭函数共轭函数是凸函数对偶问题拉格朗日函数拉格朗日对偶函数KKT条件小结优化一般优化问题的基本形式minimizef0(x),x∈Rnminimize \, f_0(x),x \in R^ns.t.fi(x)≤0,i=1⋯ms.t. \, f_i(x)\leq 0,i=1 \cdots ms.t.hj(x)=0,j=1⋯ns.t. \,原创 2016-05-07 00:09:01 · 7024 阅读 · 0 评论