![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
yinlung
geek in sci and tech
展开
-
UltraEdit中使用正则表达式替换
转自:http://78479.blog.51cto.com/68479/21762正则表达式 (UltraEdit Syntax):% 匹配行首 - 表明要搜索的字符串一定在行首. $ 匹配行尾 - 表明要搜索的字符串一定在行尾 ? 匹配除换行符外的任一单个字符. * 匹配任意个数的字符出现任意次数(不包括换行符) 匹配前导字符或者表达式出现一次或者更多次(不包括换行转载 2012-12-25 10:00:37 · 1099 阅读 · 0 评论 -
数据挖掘学习札记:ID3算法(一)
参考:1. Wiki上的 ID3 algorithm2. 百度文库里的一个PPT,有算例, 决策树ID3算法 3. 百度文库,PPT,很多算例,开始有信息理论,极力推荐阅读,ID3算法4. 用Python实现ID3和C4.5 决策树ID3和C4.5算法Python实现源码下面是整理的学习笔记。用途:The ID3 algorithm is use原创 2013-03-12 21:58:02 · 16249 阅读 · 0 评论 -
小玩意系列:Python调用Google翻译
出自:http://blog.csdn.net/zhaoyl03/article/details/8830806最近想动手做一个文档自动下载器,需要模拟浏览器的行为。虽然感觉思路上没有困难,但在技术细节上需要自己一步一步试探。在网上搜索相关内容的过程中,发现有人用Python调用Google翻译。我自己也试着实现这个小玩意,从而熟练和学习一些技术,如正则表达式匹配,模拟浏览器等。将这个小结果记原创 2013-04-21 14:14:42 · 11575 阅读 · 5 评论 -
数据挖掘学习札记:KNN算法(一)
参考:1. KNN算法介绍,Python程序和一个简单算例2. k-nearest neighbor algorithm基本想法:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。俗话叫,“随大流”。算法描述:1. 依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到Sim(Item, D1)、S原创 2013-03-14 19:54:47 · 33539 阅读 · 3 评论 -
数据挖掘学习札记:KNN算法(三)
1. 如何确定近邻数k的值?答:可通过实验确定。从k=1开始,使用检验集估计分类器的错误率。每次k增加1,选取产生最小错误率的值。2. 在特征空间的维数和训练数据大时,如何对训练数据进行快速k近邻搜索?答:可使用特殊的结构存储训练数据,以减少距离计算次数,如kd树方法 。继续阅读:1. 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,如题所示,很全。原创 2013-03-15 19:56:01 · 3923 阅读 · 0 评论 -
数据挖掘学习札记:KNN算法(二)
在数据挖掘学习札记:KNN算法(一)里,使用sklearn模块对例子进行了求解,但是并不清楚k的取值。下面是我写的一个Python代码,程序采用“小题大做”的方式,一方面可以熟悉算法,另一方面练习Python编程,可以看到,当k取1,2,3,4,5时,knn算法预测未知电影的类型都是R,即Romance。说明:1. 距离使用欧氏距离;2. k近邻搜索使用线性扫描;3. 未知电影原创 2013-03-15 19:21:38 · 6626 阅读 · 1 评论 -
ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考:1. ChiMerge:Discretiz原创 2013-03-25 21:28:54 · 22989 阅读 · 9 评论 -
海量数据处理(一)
本文参考了July的教你如何迅速秒杀掉:99%的海量数据处理面试题和quicktest的Python处理海量数据的实战研究。写这篇文章意义是:1)记录自己的经验;2)对大量小文件数据的排序使用了“先Hash,后堆排序”的策略。对小文件先Hash,后堆排列的代码来自July提供的网址,做了微小修改,加了自己的理解。场景:海量日志数据,提取出某日访问百度次数最多的K个IP想法:原创 2013-03-17 20:29:57 · 2897 阅读 · 0 评论 -
Python写爬虫——抓取网页并解析HTML
转自:http://www.lovelucy.info/python-crawl-pages.htmlCUHK上学期有门课叫做Semantic Web,课程project是要搜集整个系里面的教授信息,输入到一个系统里,能够完成诸如“如果选了A教授的课,因时间冲突,B教授的哪些课不能选”、“和A教授实验室相邻的实验室都是哪些教授的”这一类的查询。这就是所谓的“语义网”了啊。。。然而最坑爹的是转载 2013-03-03 20:50:28 · 34988 阅读 · 1 评论 -
数据库和数据仓库的区别
转自:http://www.kuqin.com/datawarehouse/20080505/7903.html 简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数转载 2013-03-10 11:07:01 · 1259 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
注:这是非常棒的一篇将贝叶斯方法的科普文章,作者讲的非常仔细,亦有很多例子,非常值得推荐!!转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看转载 2013-03-10 10:14:30 · 1739 阅读 · 1 评论 -
Python与简单网络爬虫的编写
转自:http://xiaoxia.org/2012/11/02/python-cralwer/电影来了这个电影资源搜索网站火起来了,曾有一段时间因为太多人访问我的博客,访问量高于平常十多倍,Apache、PHP和MySQL这三个庞大的东西搭建的庞大的wordpress博客就直接挂掉了,直接挂掉了,挂掉了,了。。。从上一篇博文的评论中看出似乎很多同学都比较关注爬虫的源代码。我也给大转载 2013-03-03 22:32:02 · 10255 阅读 · 2 评论 -
用python 写爬虫,去爬csdn的内容,完美解决 403 Forbidden
转自:http://www.yihaomen.com/article/python/210.htmcsdn上偶尔还是有那么一两篇好文章的,如果遇到这样的好文章,你想直接把它弄到自己的网站里面,或者保存到本地处理,一般来说,两种方法:1. copy and paste,这个不用多介绍,会用电脑的人都会。2.自己写个爬虫,根据页面地址,自动爬出想要的内容。在这里采用python写爬虫。转载 2013-03-03 22:19:11 · 15546 阅读 · 1 评论 -
Java的第一个程序
1. Windows7系统下JAVA运行环境下载、安装和设置2. Java第一个程序_HelloWorld(命令提示符窗口下)转载 2013-01-01 13:14:33 · 722 阅读 · 0 评论 -
Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)
Hadoop在处理海量数据分析方面具有独天优势。今天花了在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。首先,了解Hadoop的三种安装模式:1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapR原创 2013-03-10 21:51:05 · 40259 阅读 · 7 评论