机器学习
yinlung
geek in sci and tech
展开
-
数学之美番外篇:平凡而又神奇的贝叶斯方法
注:这是非常棒的一篇将贝叶斯方法的科普文章,作者讲的非常仔细,亦有很多例子,非常值得推荐!!转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看转载 2013-03-10 10:14:30 · 1746 阅读 · 1 评论 -
ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考:1. ChiMerge:Discretiz原创 2013-03-25 21:28:54 · 23041 阅读 · 9 评论 -
数据挖掘学习札记:KNN算法(三)
1. 如何确定近邻数k的值?答:可通过实验确定。从k=1开始,使用检验集估计分类器的错误率。每次k增加1,选取产生最小错误率的值。2. 在特征空间的维数和训练数据大时,如何对训练数据进行快速k近邻搜索?答:可使用特殊的结构存储训练数据,以减少距离计算次数,如kd树方法 。继续阅读:1. 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,如题所示,很全。原创 2013-03-15 19:56:01 · 3946 阅读 · 0 评论 -
数据挖掘学习札记:ID3算法(一)
参考:1. Wiki上的 ID3 algorithm2. 百度文库里的一个PPT,有算例, 决策树ID3算法 3. 百度文库,PPT,很多算例,开始有信息理论,极力推荐阅读,ID3算法4. 用Python实现ID3和C4.5 决策树ID3和C4.5算法Python实现源码下面是整理的学习笔记。用途:The ID3 algorithm is use原创 2013-03-12 21:58:02 · 16283 阅读 · 0 评论 -
小玩意系列:Python调用Google翻译
出自:http://blog.csdn.net/zhaoyl03/article/details/8830806最近想动手做一个文档自动下载器,需要模拟浏览器的行为。虽然感觉思路上没有困难,但在技术细节上需要自己一步一步试探。在网上搜索相关内容的过程中,发现有人用Python调用Google翻译。我自己也试着实现这个小玩意,从而熟练和学习一些技术,如正则表达式匹配,模拟浏览器等。将这个小结果记原创 2013-04-21 14:14:42 · 11598 阅读 · 5 评论 -
数据挖掘学习札记:KNN算法(一)
参考:1. KNN算法介绍,Python程序和一个简单算例2. k-nearest neighbor algorithm基本想法:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。俗话叫,“随大流”。算法描述:1. 依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到Sim(Item, D1)、S原创 2013-03-14 19:54:47 · 33553 阅读 · 3 评论 -
数据挖掘学习札记:KNN算法(二)
在数据挖掘学习札记:KNN算法(一)里,使用sklearn模块对例子进行了求解,但是并不清楚k的取值。下面是我写的一个Python代码,程序采用“小题大做”的方式,一方面可以熟悉算法,另一方面练习Python编程,可以看到,当k取1,2,3,4,5时,knn算法预测未知电影的类型都是R,即Romance。说明:1. 距离使用欧氏距离;2. k近邻搜索使用线性扫描;3. 未知电影原创 2013-03-15 19:21:38 · 6661 阅读 · 1 评论