- 博客(12)
- 资源 (19)
- 收藏
- 关注
转载 Spark RDD 详细介绍
RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 有容错机制并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象,分区内部并不会存储具体的数据。 R...
2018-09-13 17:47:58 1121
转载 Memcached集群/分布式/高可用 及 Magent缓存代理搭建过程 详解
当网站访问量达到一定时,如何做Memcached集群,又如何高可用,是接下来要讨论的问题。有这么一段文字来描述“Memcached集群”Memcached如何处理容错的?不处理!:) 在memcached节点失效的情况下,集群没有必要做任何容错处理。如果发生了节点失效,应对的措施完全取决于用户。节点失效时,下面列出几种方案供您选择:* 忽略它! 在失效节点被恢复或替换之前,还有很...
2018-09-17 17:34:29 287
转载 memcached分布式实现原理
Memcache是该系统的项目名称,Memcached是该系统的主程序文件(字母d可以理解为daemon),以守护程序方式运行于一个或多个服务器中,随时接受客户端的连接操作,使用共享内存存取数据。正文 在高并发环境下,大量的读、写请求涌向数据库,此时磁盘IO将成为瓶颈,从而导致过高的响应延迟,因此缓存应运而生。无论是单机缓存还是分布式缓存都有其适应场景和优缺点,当今存在的缓存产品也是数不...
2018-09-17 17:11:09 334
转载 Memcached
数据库的前端缓存区文件系统内核缓冲区,位于物理内存的内核地址空间,所有对磁盘文件的读写操作都要经过它,也可以把它看作是磁盘的前端设备。 这块内核缓冲区实际上包括2个部分:读缓存区、写缓存区。读缓存区中保存着最近系统从磁盘上读取的数据,一旦下次需要读取这些数据的时候,内核将直接从这里获得,而不需访问磁盘。 写缓存区的目的主要是为了减少磁盘的物理写操作,内核缓区可以将多次写操作指令累计起来,...
2018-09-17 16:55:42 448
转载 Spark基础之shuffle原理分析
一 概述Shuffle是对数据重新组合和分配Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。...
2018-09-14 16:40:18 242
转载 hadoop Map-Reduce入门讲解
Mapper和Reduce,则需要生成一个Map-Reduce得任务(Job),其基本包括以下三部分:输入的数据,也即需要处理的数据 Map-Reduce程序,也即上面实现的Mapper和Reducer 此任务的配置项JobConf欲配置JobConf,需要大致了解Hadoop运行job的基本原理:Hadoop将Job分成task进行处理,共两种task:map task和reduc...
2018-09-14 15:44:07 455
转载 SPARK资源参数调优
资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数...
2018-09-14 15:43:01 314
转载 Spark Stage的划分
RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。父RDD的一个分区去到子RDD的...
2018-09-14 15:38:10 20839 5
原创 Spark宽窄依赖
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,...
2018-09-13 18:49:02 468
原创 Spark Shuffle FetchFailedException
spark大规模数据处理中,有个比较常见的错误:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0ERROR shuffle.RetryingBlockFetcher: Failed to fetch block shuffle_0_1300_10...
2018-09-13 16:10:43 2952
转载 Sqoop学习之路
一、概述 二、工作机制 三、安装 1、前提概述 2、软件下载 3、安装步骤 四、Sqoop的基本命令 基本操作 示例 五、Sqoop的数据导入 1、从RDBMS导入到HDFS中 2、把MySQL数据库中的表数据导入到Hive中 3、把MySQL数据库中的表数据导入到hbase 正文回到顶部一、概述sqoop 是 apache 旗下一款...
2018-09-03 15:55:05 402
转载 Hive学习之路 (二十一)Hive 优化策略
目录一、Hadoop 框架计算特性 二、优化常用手段 三、排序选择 四、怎样做笛卡尔积 五、怎样写 in/exists 语句 六、设置合理的 maptask 数量 七、小文件合并 八、设置合理的 reduceTask 的数量 九、合并 MapReduce 操作 十、合理利用分桶:Bucketing 和 Sampling 十一、合理利用分区:Partition 十二、Jo...
2018-09-03 15:35:49 219 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人