![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
小狼_百度
百度,web系统,分布式系统,大数据,机器学习,人工智能等爱好者
展开
-
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2016-02-18 16:37:27 · 1334 阅读 · 0 评论 -
局部加权回归
通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting),比如数据集是一个钟形的曲线。而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的过拟合(overfitting),不符合数据真实的模型。 今天来讲一种非参数学习方法,叫做局部加权回归(LWR)。为什么局部加权回归叫做非参数学习方法呢? 首转载 2016-06-06 18:15:01 · 563 阅读 · 0 评论 -
矩阵 向量 求导运算
百度查找的中文文章关于 矩阵 向量 求导运算有问题,以英文版为准转载 2016-06-05 20:10:52 · 1443 阅读 · 0 评论 -
Jacobian矩阵和Hessian矩阵
(x1,x2…,xn)构成的hessian矩阵的基矩阵n*n为 x1x1 x1x2 .... x1xnx2x1 x2x2 .... x2xn. . .... .xnx1 xnx2 .... xnxn转载 2016-06-08 15:17:19 · 549 阅读 · 0 评论 -
距离和相似度度量
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, …转载 2016-06-03 08:29:59 · 749 阅读 · 0 评论 -
告诉你为什么数据要取对数
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。2. 取转载 2016-06-07 16:04:36 · 42162 阅读 · 1 评论 -
循环神经网络(RNN, Recurrent Neural Networks)介绍
循环神经网络(RNN, Recurrent Neural Networks)介绍 循环神经网络(Recurrent Neural Networks,RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。但是,目前网上与RNNs有关的学习资料很少,因此该系列便是介绍RNNs的原理以及如何实现。主要分成以下几个部分对转载 2016-04-19 16:38:55 · 13471 阅读 · 0 评论 -
Understanding LSTM Networks
Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you understand each word based on your understanding of previous words. You don’t thro转载 2016-04-19 16:34:56 · 581 阅读 · 0 评论 -
深度学习、自然语言处理和表征方法
翻译:XiaoxiaoLi简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而转载 2016-04-19 16:30:28 · 2047 阅读 · 0 评论 -
傅里叶分析
我保证这篇文章和你以前看过的所有文章都不同,这是 2012 年还在果壳的时候写的,但是当时没有来得及写完就出国了……于是拖了两年,嗯,我是拖延症患者……这篇文章的核心思想就是:要让读者在不看任何数学公式的情况下理解傅里叶分析。傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是,傅里叶分析的公式看起来太复杂了,所以很多大一新生上来就懵圈转载 2016-04-19 16:25:50 · 1048 阅读 · 0 评论 -
弧度 和 角度的理解, 以及相互转换
这两天在看同事写的四叉树代码,其中用到了孤度和角度之间的转换,所以转载此文章进行了学习 2009-12-01弧度与角度的关系一、角的两种单位 “ 弧度”和“度”是度量角大小的两种不同的单位。就像“米”和“市尺”是度量长度大小的两种不同的单位一样。 在flash里规定:在旋转角度(rotation)里的角,以“度”为单位;在三角函数里的角要以“弧度”为单转载 2016-04-30 11:16:17 · 8796 阅读 · 0 评论 -
交叉检验---训练数据,验证数据和测试数据
最近在Coursera上学习Data Analysis课程,课程论坛中有个帖子针对交叉检验(Cross Validation)中训练数据集(train dataset),验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论,内容挺好的,记录到这里,作为备忘。 交叉检验(Cross Validation)在数据分析中,有些算法需要转载 2016-02-18 18:16:01 · 3337 阅读 · 1 评论 -
假设检验的学习和理解
本文目的最近在Coursera上学习Data Analysis,结合前一阵子阅读的《Head First Statistics》,发现好多计算方法都涉及了假设检验(Hypothesis Test,又称“显著性检验”,Significance Test),用于检验模型的显著性。如回归分析,检测估计量的系数;卡方检验(运用卡方分布)检验模型的优度拟合和变量独立性。所以,决定梳理一下相关知识转载 2016-02-18 17:02:42 · 3233 阅读 · 1 评论 -
机器学习-学习笔记3.1-局部加权回归
局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为(这个地方用矩阵的方法来表示Ɵ表示参数,i表示第i个样本,h为在Ɵ参数下的预测值): 我们的目标是让 最小,然后求出来Ɵ,再代入h中就可以得到回归方程了。转载 2016-06-06 18:16:11 · 418 阅读 · 0 评论