python
半吊子全栈工匠
半吊子全栈工匠一枚
展开
-
猪与蟒(pig and python)
Python 真是无处不在呀.pig 0.9以后将python作为嵌入式支持语音,使用Jython解释器利用python2.5的功能,这个接口的最上层是org.apache.pig.scripting.Pig首先python脚本会对一段Pig Latin脚本进行编译,然后将在Python中定义的变量传递给它,最后执行它.....原创 2014-12-21 14:45:42 · 3694 阅读 · 0 评论 -
一文贯通python文件读取
不论是数据分析还是机器学习,乃至于高大上的AI,数据源的获取是所有过程的入口。读取文件的操作,文件有各种各样的格式:文本,音视频,pdf,word,excel等等...... Life is short, just use python.原创 2017-05-07 15:35:31 · 4800 阅读 · 2 评论 -
7行Python代码的人脸识别
随着去年alphago 的震撼表现,AI 再次成为科技公司的宠儿。AI涉及的领域众多,图像识别中的人脸识别是其中一个有趣的分支。百度的BFR,Face++的开放平台,汉王,讯飞等等都提供了人脸识别的API,对于老码农而言,自己写一小段代码,来看看一张图片中有几个人,没有高大上,只是觉得好玩,而且只需要7行代码。原创 2017-03-20 08:41:57 · 77102 阅读 · 19 评论 -
10行python代码的词云
关于词云wordcloud什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。现在,可以从网络上找到各种各样的词云,下面一图来自沈浩老师的微博:从百度图片中可以看到更多制作好的词云,例如词云制作有很多工具…..从技术上来看,词云是一种有趣的数据可视化方法,互联网上有很多的现成的工具原创 2017-03-06 10:22:56 · 18562 阅读 · 2 评论 -
一行python代码
Life is short, just use Python. 自从08年接触Python,就有爱不释手的感觉,逐渐地,有些不忍地疏远了Perl 和Shell编程,因为python 的优雅么? 不全是,主要是可以高效开发吧。那一行代码可以干什么呢?有趣我孩子的英文名叫andy,也许当初教他写程序的时候,如果先秀一下这行代码,可能就更能激起他对代码的兴趣了。>>> print'\n'.join(['原创 2016-10-02 17:40:43 · 17750 阅读 · 17 评论 -
从ld: library not found for -lzookeeper_mt 看ZooKeeper 在Mac OS EI Capitan的安装方式
Mac 升级到EI Capitan后,zookeeper 的python client 用不了了。zookeeper 的python client 一般使用的有两种:zkpython和kazoo。这里使用的是zkpython。现象重新编译安装,报错如下:......ld: library not found for -lzookeeper_mt......原创 2016-08-26 11:50:56 · 3197 阅读 · 1 评论 -
地铁译:Spark for python developers ---Spark流式数据处理
列举了流式处理架构应用的基础,描述了他们的挑战,约束,和优势。深入了解了Spark Streaming 的内部工作原理包括如何Spark Core 适用,以及与Spark SQL 和 Spark MLlib对话, 通过TCP sockets 解释了流处理概念。使用Kafka最大限度地增加了流处理架构的弹性,讨论了上下行数据与消费者之间的解耦合。 还讨论了Flume—这个可靠,灵活,伸缩性数据摄取和传输的流水线系统。翻译 2016-06-15 09:22:28 · 23497 阅读 · 1 评论 -
地铁译:Spark for python developers ---Spark处理后的数据可视化
数据可视化能够提取数据的结论见解和趋势。快速浏览Python 生态系统中的可视化工具,重点把Bokeh 作为渲染和展示大数据集的强劲工具。 Bokeh 是Python Anaconda 生态系统的一部分......翻译 2016-06-25 11:31:50 · 10330 阅读 · 1 评论 -
地铁译:Spark for python developers ---Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是 Spark dataframe, Spark dataframe 受到了翻译 2016-05-21 20:31:30 · 16023 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境2
这一段,主要是 Spark 的基本概念,以及Anaconda的基本组成。数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据. Hadoop 是第一个map-reduce的开源实现. Hadoop 依赖的分布式存储框架叫做 HDFS......Spark 是一个面向大规模数据处理的快速、分布式、通用的分析计算引擎. 主要不同于Hadoop的特点在于.....翻译 2016-05-09 20:37:47 · 5504 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境1
一个多月的地铁阅读时光,阅读《Spark for python developers》电子书,不动笔墨不看书,随手在evernote中做了一下翻译,多年不习英语,自娱自乐。周末整理了一下,发现再多做一点就可基本成文了,于是开始这个地铁译系列。为开发搭建一个独立的虚拟环境,通过Spark和Anaconda提供的PyData 库为该环境补充能力。 这些库包括Pandas,Scikit-Learn, Blaze,翻译 2016-05-08 20:16:02 · 5924 阅读 · 0 评论 -
地铁译:Spark for python developers ---Spark与数据的机器学习
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.翻译 2016-05-30 09:11:27 · 12913 阅读 · 1 评论 -
地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备
从GitHub收集有关Apache Spark的信息, 在Twitter上检查相关的tweets, 使用 Meetup从更广泛的开源社区得到更多Spark 相关感受。 本章中, 我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: + 从批处理到流处理介绍......翻译 2016-05-17 06:54:45 · 15405 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境 4
Spark 同时可以建立在虚拟化的基础上,例如Vagrant 和Docker, 这样的虚拟化环境很容易部署到各种云服务上,例如AWS。Vagrant的虚拟化环境为了创建Python和Spark 环境......翻译 2016-05-11 21:12:30 · 4047 阅读 · 0 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境3
在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序.....翻译 2016-05-10 20:18:44 · 22285 阅读 · 0 评论 -
Python 文件处理的几点注意事项
python 文件处理,安全关闭,CSV,XML, LOG, 序列化和反序列化,图像文件处理原创 2015-07-26 15:18:03 · 1839 阅读 · 0 评论 -
python 中基本运算的性能简析
运算的性能分析有一个高深的词汇——算法分析,主要研究的是运行时间和空间的需求。对计算时间的描述一般通过增长量级,增长量级是一套函数,其渐进增长行为是等价的,用大O来表示。O(1) < O(logb n) < O(n) < O(n logb n) < O(n)< O(n2)<O (n3)<O(cn ) 对数算法中的基数并不重要,指数算法只适用于小数据问题......原创 2015-03-22 18:16:22 · 2167 阅读 · 0 评论 -
基于AWS使用深度学习的10个Linux命令
在AWS上执行大规模的深度学习处理是一个廉价而且有效的学习和开发方式。花少量的钱就可以使用数十GB的内存,数十个CPU,多个GPU,这是值得推荐的。如果你是使用EC2或者Linux 命令的新人,在云端执行深度学习脚本的时候, 这些命令是非常有效的。翻译 2017-09-04 21:56:53 · 2065 阅读 · 0 评论