2018年09月_常生果

11月 10月 09月 08月

转载 Spark RDD 详细介绍

　　RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象，分区内部并不会存储具体的数据。 R...

2018-09-13 17:47:58 1121

转载 Memcached集群/分布式/高可用及 Magent缓存代理搭建过程详解

当网站访问量达到一定时，如何做Memcached集群，又如何高可用，是接下来要讨论的问题。有这么一段文字来描述“Memcached集群”Memcached如何处理容错的？不处理！:) 在memcached节点失效的情况下，集群没有必要做任何容错处理。如果发生了节点失效，应对的措施完全取决于用户。节点失效时，下面列出几种方案供您选择：* 忽略它！在失效节点被恢复或替换之前，还有很...

2018-09-17 17:34:29 287

转载 memcached分布式实现原理

Memcache是该系统的项目名称，Memcached是该系统的主程序文件（字母d可以理解为daemon），以守护程序方式运行于一个或多个服务器中，随时接受客户端的连接操作，使用共享内存存取数据。正文　　在高并发环境下，大量的读、写请求涌向数据库，此时磁盘IO将成为瓶颈，从而导致过高的响应延迟，因此缓存应运而生。无论是单机缓存还是分布式缓存都有其适应场景和优缺点，当今存在的缓存产品也是数不...

2018-09-17 17:11:09 334

转载 Memcached

数据库的前端缓存区文件系统内核缓冲区，位于物理内存的内核地址空间，所有对磁盘文件的读写操作都要经过它，也可以把它看作是磁盘的前端设备。这块内核缓冲区实际上包括2个部分：读缓存区、写缓存区。读缓存区中保存着最近系统从磁盘上读取的数据，一旦下次需要读取这些数据的时候，内核将直接从这里获得，而不需访问磁盘。写缓存区的目的主要是为了减少磁盘的物理写操作，内核缓区可以将多次写操作指令累计起来，...

2018-09-17 16:55:42 448

转载 Spark基础之shuffle原理分析

一概述Shuffle是对数据重新组合和分配Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。...

2018-09-14 16:40:18 242

转载 hadoop Map-Reduce入门讲解

Mapper和Reduce，则需要生成一个Map-Reduce得任务(Job)，其基本包括以下三部分：输入的数据，也即需要处理的数据 Map-Reduce程序，也即上面实现的Mapper和Reducer 此任务的配置项JobConf欲配置JobConf，需要大致了解Hadoop运行job的基本原理：Hadoop将Job分成task进行处理，共两种task：map task和reduc...

2018-09-14 15:44:07 455

转载 SPARK资源参数调优

资源参数调优了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着作业运行原理中的某个部分，我们同时也给出了一个调优的参考值。num-executors参数...

2018-09-14 15:43:01 314

RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务，任务是一个个的task 。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。父RDD的一个分区去到子RDD的...

2018-09-14 15:38:10 20839 5

原创 Spark宽窄依赖

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。针对不同的转换函数，RDD之间的依赖关系分类窄依赖（narrow dependency）和宽依赖（wide dependency, 也称 shuffle dependency）.宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，...

2018-09-13 18:49:02 468

原创 Spark Shuffle FetchFailedException

spark大规模数据处理中，有个比较常见的错误：org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0ERROR shuffle.RetryingBlockFetcher: Failed to fetch block shuffle_0_1300_10...

2018-09-13 16:10:43 2952

转载 Sqoop学习之路

一、概述二、工作机制三、安装 1、前提概述 2、软件下载 3、安装步骤四、Sqoop的基本命令基本操作示例五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 正文回到顶部一、概述sqoop 是 apache 旗下一款...

2018-09-03 15:55:05 402

转载 Hive学习之路（二十一）Hive 优化策略

目录一、Hadoop 框架计算特性二、优化常用手段三、排序选择四、怎样做笛卡尔积五、怎样写 in/exists 语句六、设置合理的 maptask 数量七、小文件合并八、设置合理的 reduceTask 的数量九、合并 MapReduce 操作十、合理利用分桶：Bucketing 和 Sampling 十一、合理利用分区：Partition 十二、Jo...

2018-09-03 15:35:49 219 2