Python Hadoop
文章平均质量分 82
Zhaozetu
这个作者很懒,什么都没留下…
展开
-
Hadnoop权威指南 第2章 关于MapReduce 一个Python版本的小例子
Hadoop Streaming使用UNIX标准流作为Hadoop和应用程序之间的接口,因此任何语言都可以通过标准的输入/输出写MapReduce程序。后面会在程序的注释中说明数据是如何在Map和Reduce任务中流动的。本文给出一个Python的Hadoop Streaming例子,从程序的角度讲述原始数据如何流过map和reduce任务。原创 2016-09-06 10:37:25 · 281 阅读 · 0 评论 -
Hadoop Streaming + python + avro + Mapreduce例子
通过Hadoop Streaming + Python统计分析某个人喜欢的最大数字AVRO是一个编程语言无关的序列化规范。主要特点是:1. 模式与数据都保存在文件中,一般模式以JSON格式保存,数据保存为二进制格式;2. 由于保存了模式,因此无需对每个数据进行标识,减少了保存数据的空间;3. 由于数据是自描述的,因此数据可以进行压缩/拆分,非常适合分布式环境中使用;4. 由于数据是自描述的,非常方便对模式进行扩展;5. 由于数据是自描述的,不需要强制生成代码原创 2016-09-06 23:17:57 · 448 阅读 · 0 评论 -
使用词向量分析关键字语义的相似度 Python版本
实验目的:以《兽血沸腾.txt》的每一行为一篇文档,得到对应关键词的词向量,计算其中部分关键词的相似度。主要是熟悉词向量的使用场景。背景知识介绍什么是词向量?词向量是自然语言理解中一种语言模型的副产品。所谓语言模型,其实就是将人类识别的原创 2016-09-08 11:38:17 · 2451 阅读 · 0 评论