![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据相关
文章平均质量分 82
蜗牛up
追梦之路!
展开
-
Spark键值对操作(python实验版)
说明:此处介绍的是pair RDD特有的操作,前面介绍的基础RDD操作,也适用pair RDD。一、创建pair RDD1、将普通RDD转换成pair RDD时,使用map()实现。pairs = lines.map(lambda x: (x.split(" ")[0], x)) #在Python中使用第一个单词作为键创建出一个pair RDD,如图:二、Pair RDD的转化操作(以键值对集合...原创 2018-03-05 20:56:39 · 1921 阅读 · 0 评论 -
Spark基础转换及行动操作(python实验)
注意:实验前先引入包from pyspark.context import SparkContext ,还需配置 sc = SparkContext('local', 'test') ,然后才能用sc做操作。一、常见的转换操作1、map() : 将函数应用于RDD中的每个元素,将返回值构成新的RDD2、flatMap() :将函数应用于RDD 中的每个元素,将返回的迭代器的所有内容构成新的RDD。...原创 2018-03-05 20:54:19 · 1410 阅读 · 0 评论 -
hadoop深入研究——HDFS数据完整性
本文转自https://blog.csdn.net/lastsweetop/article/details/9159067数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和,传输后计算一个校验和,两个校验和如果不相同就说明数据存在错误,比较常用得错误校验码是CRC32.hdfs数据完整性 hdfs写入的时候计算出校验和...转载 2018-03-30 22:44:30 · 397 阅读 · 0 评论 -
Hadoop压缩
本文是转载:https://blog.csdn.net/gongyunbao/article/details/52563908首先简单介绍MapReduce框架的I/O处理各个步骤:1)从HDFS读取文件输入到Map程序中 2)将Mapper程序中的输出结果保存到本地中 3)Reducer从Mapper获取数据文件,即Reducer与Mapper之间进行网络传输操作 4)Reducer从Mappe...转载 2018-03-31 23:34:29 · 372 阅读 · 0 评论