- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 spark RDD 之间得依赖关系
RDD中不同的操作会使得不同RDD中的分区会产生不同的依赖。RDD中的依赖关系分为窄依赖(Narrow Dependency)与宽依赖(Wide Dependency),图9-10展示了两种依赖之间的区别。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区;比如图9-10(a)中,RDD1是RDD2的父RDD,RDD2是子RDD,RDD1的分区1,...
2018-04-30 23:12:44 1382
原创 spark算子
简单来说,Spark 算子大致可以分为以下两类:Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。...
2018-04-30 22:50:50 260
原创 spark 算子之 reduceByKey与groupByKey的区别
补充:reduceByKey与groupByKey的区别? [优化代码的最基本思路](1)当采用reduceByKeyt时,Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。 注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用...
2018-04-30 16:16:04 1692
原创 Centos7 安装 SuperSet 过程
https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel...
2018-04-18 08:36:18 1353
原创 Centos 6 安装superset 及遇到的一些坑
参考文档见官网;地址如下连接https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel ...
2018-04-18 01:17:02 2085
原创 基于Spark Shuffle Block的优化
org.apache.spark.storage.DiskStore if(length<minMemoryMapBytes){ valbuf=ByteBuffer.allocate(length.toInt) channel.position(offset) while(buf.remaining()!=0){ if(channel.read(buf)==-1){ thrown...
2018-04-18 00:11:45 874
原创 spark 处理小文件问题
coalesce与repartition 解决小文件问题repartition(numPartitions: Int) 返回numPartitions分区个数的新RDD(或DataFrame)。 可以增加或减少此RDD中的并行性级别,内部使用shuffle来重新分配数据。 如果要减少partition数量,可考虑使用`coalesce`,这可以避免执行shuffle。 ...
2018-04-18 00:04:44 8133
原创 Spark on YARN占用资源分析 - Spark 内存模型
Spark的Excutor的Container内存有两大部分组成:堆外内存和Excutor内存A) 堆外内存(spark.yarn.executor.memoryOverhead) 主要用于JVM自身的开销。默认:MAX(executorMemory*0.10,384m)B) Excutor内存(spark.executor.memory) Execution:shuffle、排序、...
2018-04-17 11:26:17 2446
转载 Apache Spark 内存管理详解
本文援引自IBM知识库,链接如下https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark ...
2018-04-16 23:47:33 149
原创 Spark on YARN-Cluster和YARN-Client的区别
YARN-Cluster和YARN-Client的区别(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在driver所在的机器上;(2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交Ap...
2018-04-16 23:29:37 9359 2
转载 YARN的内存和CPU配置
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个co...
2018-04-16 20:16:06 306
原创 spark 通过 phoenix 操作hbase 表
参考文档http://phoenix.apache.org/phoenix_spark.html
2018-04-16 00:28:41 3266
原创 Hbase shell 常见操作
Hbase Shell常用操作:1. 创建表create '表名', '列族名1','列族名2' create 'testorder', 'info','orders'2. 查看表 查看所有表列表:list查看某个表的信息: desc '表名' 或者 describe '表名'查看表是否存在: exists '表名'3. 插入数据put '表名', 'rowkey值', '列族: 列名' ,'值...
2018-04-15 17:37:01 306
原创 Hbase 单机安装配置 及 phoenix 安装配置搭配使用
先安装配置zookeeper==== ZOOKEEPER 安装配置=== [hadoop@node1 ~]$ tar xf ~/^Cftware/zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app[hadoop@node1 conf]$ cd ~/app/zookeeper-3.4.5-cdh5.7.0/conf/[hadoop@node1 conf]$ cp -r...
2018-04-15 16:59:44 1040
原创 hbase 架构和相关组件
Zookeeper1. 保证HMaster节点的HA (ephemeral node)2. 保存RegionServer节点的信息, 监控RegionServer的上下线, 异常宕机等 (ephemeral node)3. 维护Hbase的元数据表的位置信息 HMaster1. DDL操作2. 记录region在哪台region server上, 负责region的分配和负载均衡。3. 负责sp...
2018-04-15 14:28:18 174
原创 hive实现网站用户行为分析指标
字段解释accessDate //访问时间,精确到日期,String格式accessTime //访问时间,精确到毫秒,int格式accessHour //访问小时,区间为0-23,int格式 requestMethod //请求方式(get post 统计的时候没用到),String格式requestProtocal //请求协议(http https,统计...
2018-04-14 21:40:30 2458
原创 hive 分区表
假设我们有数据宾馆的近10年的数据,格式如下每列的意义| hotel | | | | h_id | id || | h_region | 旅馆行政区划 || | h_hname | 旅馆名称 || | h_address | 旅馆地址 || | h_uname | ...
2018-04-14 19:16:31 313
原创 Tidb 集群在线滚动升级
参考链接https://pingcap.com/docs-cn/op-guide/ansible-deployment/#%E6%BB%9A%E5%8A%A8%E5%8D%87%E7%BA%A7[root@tidb1 tidb-ansible]# mysql -h 192.168.137.161 -uroot -P 4000 -D mysql Reading table information f...
2018-04-13 15:05:09 794
原创 idea 中用spark 2.x 实现 不同数据源join (hive join oracle )
pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am
2018-04-05 23:40:04 223
原创 idea中 spark 2.x 操作 Oracle 11g 表
由于Oracle授权问题,Maven3不提供Oracle JDBC driver,为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。二.手动安装命令如下:(首先电脑安装maven,并配置maven环境 ,windows -cmd/powershell)mvn install:install-file -Dfile=F:\ruanjian\data-integr...
2018-04-05 23:23:26 615
原创 idea中 spark 2.x 操作 hive表
pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am
2018-04-05 22:54:50 3905
原创 idea 中用spark 2.x 实现 不同数据源join (hive join MySQL )
pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am
2018-04-05 22:37:42 579
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人