自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark RDD 之间得依赖关系

RDD中不同的操作会使得不同RDD中的分区会产生不同的依赖。RDD中的依赖关系分为窄依赖(Narrow Dependency)与宽依赖(Wide Dependency),图9-10展示了两种依赖之间的区别。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区;比如图9-10(a)中,RDD1是RDD2的父RDD,RDD2是子RDD,RDD1的分区1,...

2018-04-30 23:12:44 1382

原创 spark算子

简单来说,Spark 算子大致可以分为以下两类:Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。...

2018-04-30 22:50:50 260

原创 spark 算子之 reduceByKey与groupByKey的区别

补充:reduceByKey与groupByKey的区别? [优化代码的最基本思路](1)当采用reduceByKeyt时,Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。 注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用...

2018-04-30 16:16:04 1692

原创 Centos7 安装 SuperSet 过程

https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel...

2018-04-18 08:36:18 1353

原创 Centos 6 安装superset 及遇到的一些坑

参考文档见官网;地址如下连接https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel ...

2018-04-18 01:17:02 2085

原创 基于Spark Shuffle Block的优化

org.apache.spark.storage.DiskStore  if(length<minMemoryMapBytes){  valbuf=ByteBuffer.allocate(length.toInt)  channel.position(offset)  while(buf.remaining()!=0){  if(channel.read(buf)==-1){  thrown...

2018-04-18 00:11:45 874

原创 spark 处理小文件问题

coalesce与repartition  解决小文件问题repartition(numPartitions: Int)   返回numPartitions分区个数的新RDD(或DataFrame)。   可以增加或减少此RDD中的并行性级别,内部使用shuffle来重新分配数据。   如果要减少partition数量,可考虑使用`coalesce`,这可以避免执行shuffle。 ...

2018-04-18 00:04:44 8133

原创 Spark on YARN占用资源分析 - Spark 内存模型

Spark的Excutor的Container内存有两大部分组成:堆外内存和Excutor内存A)   堆外内存(spark.yarn.executor.memoryOverhead)  主要用于JVM自身的开销。默认:MAX(executorMemory*0.10,384m)B)   Excutor内存(spark.executor.memory)   Execution:shuffle、排序、...

2018-04-17 11:26:17 2446

转载 Apache Spark 内存管理详解

本文援引自IBM知识库,链接如下https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark ...

2018-04-16 23:47:33 149

原创 Spark on YARN-Cluster和YARN-Client的区别

YARN-Cluster和YARN-Client的区别(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在driver所在的机器上;(2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交Ap...

2018-04-16 23:29:37 9359 2

转载 YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个co...

2018-04-16 20:16:06 306

原创 spark 通过 phoenix 操作hbase 表

参考文档http://phoenix.apache.org/phoenix_spark.html

2018-04-16 00:28:41 3266

原创 Hbase shell 常见操作

Hbase Shell常用操作:1. 创建表create '表名', '列族名1','列族名2' create 'testorder', 'info','orders'2. 查看表 查看所有表列表:list查看某个表的信息: desc '表名' 或者 describe '表名'查看表是否存在: exists '表名'3. 插入数据put  '表名', 'rowkey值', '列族: 列名' ,'值...

2018-04-15 17:37:01 306

原创 Hbase 单机安装配置 及 phoenix 安装配置搭配使用

先安装配置zookeeper==== ZOOKEEPER  安装配置=== [hadoop@node1 ~]$ tar xf ~/^Cftware/zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app[hadoop@node1 conf]$ cd ~/app/zookeeper-3.4.5-cdh5.7.0/conf/[hadoop@node1 conf]$ cp -r...

2018-04-15 16:59:44 1040

原创 hbase 架构和相关组件

Zookeeper1. 保证HMaster节点的HA (ephemeral node)2. 保存RegionServer节点的信息, 监控RegionServer的上下线, 异常宕机等 (ephemeral node)3. 维护Hbase的元数据表的位置信息 HMaster1. DDL操作2. 记录region在哪台region server上, 负责region的分配和负载均衡。3. 负责sp...

2018-04-15 14:28:18 174

原创 hive实现网站用户行为分析指标

字段解释accessDate     //访问时间,精确到日期,String格式accessTime   //访问时间,精确到毫秒,int格式accessHour   //访问小时,区间为0-23,int格式 requestMethod   //请求方式(get post 统计的时候没用到),String格式requestProtocal   //请求协议(http https,统计...

2018-04-14 21:40:30 2458

原创 hive 分区表

假设我们有数据宾馆的近10年的数据,格式如下每列的意义| hotel  |         |         |         | h_id   | id  ||        | h_region  | 旅馆行政区划  ||        | h_hname  | 旅馆名称    ||        | h_address  | 旅馆地址    ||        | h_uname  | ...

2018-04-14 19:16:31 313

原创 Tidb 集群在线滚动升级

参考链接https://pingcap.com/docs-cn/op-guide/ansible-deployment/#%E6%BB%9A%E5%8A%A8%E5%8D%87%E7%BA%A7[root@tidb1 tidb-ansible]# mysql -h 192.168.137.161 -uroot -P 4000 -D mysql Reading table information f...

2018-04-13 15:05:09 794

原创 idea 中用spark 2.x 实现 不同数据源join (hive join oracle )

pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 23:40:04 223

原创 idea中 spark 2.x 操作 Oracle 11g 表

由于Oracle授权问题,Maven3不提供Oracle JDBC driver,为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。二.手动安装命令如下:(首先电脑安装maven,并配置maven环境 ,windows -cmd/powershell)mvn install:install-file -Dfile=F:\ruanjian\data-integr...

2018-04-05 23:23:26 615

原创 idea中 spark 2.x 操作 hive表

pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 22:54:50 3905

原创 idea 中用spark 2.x 实现 不同数据源join (hive join MySQL )

pom文件中 添加如下 相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 22:37:42 579

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除