Python
yinlung
geek in sci and tech
展开
-
使用Python实现Hadoop MapReduce程序
<!---->转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴。 在这个实例中,我将会向大家翻译 2013-03-10 21:35:13 · 79074 阅读 · 11 评论 -
海量数据处理(一)
本文参考了July的教你如何迅速秒杀掉:99%的海量数据处理面试题和quicktest的Python处理海量数据的实战研究。写这篇文章意义是:1)记录自己的经验;2)对大量小文件数据的排序使用了“先Hash,后堆排序”的策略。对小文件先Hash,后堆排列的代码来自July提供的网址,做了微小修改,加了自己的理解。场景:海量日志数据,提取出某日访问百度次数最多的K个IP想法:原创 2013-03-17 20:29:57 · 2897 阅读 · 0 评论 -
Python 排序
整理自以下资料,供自己方便查阅.参考:1.python中List的sort方法(或者sorted内建函数)的用法2. Python字典按值排序、包含字典的列表按字典值排序的方法3. Sorting Mini-HOW TOpython列表排序 简单记一下python中List的sort方法(或者sorted内建函数)的用法。 关键字: python列表转载 2013-03-17 11:09:10 · 1514 阅读 · 0 评论 -
Python yield
参考:1. Python yield 用法2.Python yield 使用浅析yield 简单说来就是一个生成器,生成器是这样一个函数,它记住上一次返回时在函数体中的位置。对生成器函数的第二次(或第 n 次)调用跳转至该函数中间,而上次调用的所有局部变量都保持不变。yield 生成器的运行机制当你问生成器要一个数时,生成器会执行,直至出现 yield 语句转载 2013-03-17 16:13:57 · 1383 阅读 · 0 评论 -
ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考:1. ChiMerge:Discretiz原创 2013-03-25 21:28:54 · 22989 阅读 · 9 评论 -
数据挖掘学习札记:KNN算法(二)
在数据挖掘学习札记:KNN算法(一)里,使用sklearn模块对例子进行了求解,但是并不清楚k的取值。下面是我写的一个Python代码,程序采用“小题大做”的方式,一方面可以熟悉算法,另一方面练习Python编程,可以看到,当k取1,2,3,4,5时,knn算法预测未知电影的类型都是R,即Romance。说明:1. 距离使用欧氏距离;2. k近邻搜索使用线性扫描;3. 未知电影原创 2013-03-15 19:21:38 · 6626 阅读 · 1 评论 -
数据挖掘学习札记:KNN算法(一)
参考:1. KNN算法介绍,Python程序和一个简单算例2. k-nearest neighbor algorithm基本想法:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。俗话叫,“随大流”。算法描述:1. 依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到Sim(Item, D1)、S原创 2013-03-14 19:54:47 · 33539 阅读 · 3 评论 -
小玩意系列:Python调用Google翻译
出自:http://blog.csdn.net/zhaoyl03/article/details/8830806最近想动手做一个文档自动下载器,需要模拟浏览器的行为。虽然感觉思路上没有困难,但在技术细节上需要自己一步一步试探。在网上搜索相关内容的过程中,发现有人用Python调用Google翻译。我自己也试着实现这个小玩意,从而熟练和学习一些技术,如正则表达式匹配,模拟浏览器等。将这个小结果记原创 2013-04-21 14:14:42 · 11575 阅读 · 5 评论