2018年04月_wjl7813

原创 spark RDD 之间得依赖关系

RDD中不同的操作会使得不同RDD中的分区会产生不同的依赖。RDD中的依赖关系分为窄依赖（Narrow Dependency）与宽依赖（Wide Dependency），图9-10展示了两种依赖之间的区别。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区，或多个父RDD的分区对应于一个子RDD的分区；比如图9-10(a)中，RDD1是RDD2的父RDD，RDD2是子RDD，RDD1的分区1，...

2018-04-30 23:12:44 1382

原创 spark算子

简单来说，Spark 算子大致可以分为以下两类:Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。...

2018-04-30 22:50:50 260

原创 spark 算子之 reduceByKey与groupByKey的区别

补充：reduceByKey与groupByKey的区别？ [优化代码的最基本思路]（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用...

2018-04-30 16:16:04 1692

原创 Centos7 安装 SuperSet 过程

https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel...

2018-04-18 08:36:18 1353

原创 Centos 6 安装superset 及遇到的一些坑

参考文档见官网；地址如下连接https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel ...

2018-04-18 01:17:02 2085

原创基于Spark Shuffle Block的优化

org.apache.spark.storage.DiskStore if(length<minMemoryMapBytes){ valbuf=ByteBuffer.allocate(length.toInt) channel.position(offset) while(buf.remaining()!=0){ if(channel.read(buf)==-1){ thrown...

2018-04-18 00:11:45 874

原创 spark 处理小文件问题

coalesce与repartition 解决小文件问题repartition(numPartitions: Int)  返回numPartitions分区个数的新RDD(或DataFrame)。  可以增加或减少此RDD中的并行性级别，内部使用shuffle来重新分配数据。  如果要减少partition数量，可考虑使用`coalesce`，这可以避免执行shuffle。 ...

2018-04-18 00:04:44 8133

原创 Spark on YARN占用资源分析 - Spark 内存模型

Spark的Excutor的Container内存有两大部分组成：堆外内存和Excutor内存A) 堆外内存(spark.yarn.executor.memoryOverhead) 主要用于JVM自身的开销。默认：MAX(executorMemory*0.10,384m)B) Excutor内存(spark.executor.memory) Execution:shuffle、排序、...

2018-04-17 11:26:17 2446

转载 Apache Spark 内存管理详解

本文援引自IBM知识库，链接如下https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark ...

2018-04-16 23:47:33 149

原创 Spark on YARN-Cluster和YARN-Client的区别

YARN-Cluster和YARN-Client的区别（1）SparkContext初始化不同，这也导致了Driver所在位置的不同，YarnCluster的Driver是在集群的某一台NM上，但是Yarn-Client就是在driver所在的机器上；（2）而Driver会和Executors进行通信，这也导致了Yarn_cluster在提交Ap...

2018-04-16 23:29:37 9359 2

转载 YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经验，每两个co...

2018-04-16 20:16:06 306

原创 spark 通过 phoenix 操作hbase 表

参考文档http://phoenix.apache.org/phoenix_spark.html

2018-04-16 00:28:41 3266

原创 Hbase shell 常见操作

Hbase Shell常用操作：1. 创建表create '表名', '列族名1','列族名2' create 'testorder', 'info','orders'2. 查看表查看所有表列表：list查看某个表的信息： desc '表名' 或者 describe '表名'查看表是否存在： exists '表名'3. 插入数据put '表名', 'rowkey值', '列族: 列名' ,'值...

2018-04-15 17:37:01 306

原创 Hbase 单机安装配置及 phoenix 安装配置搭配使用

先安装配置zookeeper==== ZOOKEEPER 安装配置=== [hadoop@node1 ~]$ tar xf ~/^Cftware/zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app[hadoop@node1 conf]$ cd ~/app/zookeeper-3.4.5-cdh5.7.0/conf/[hadoop@node1 conf]$ cp -r...

2018-04-15 16:59:44 1040

原创 hbase 架构和相关组件

Zookeeper1. 保证HMaster节点的HA （ephemeral node）2. 保存RegionServer节点的信息，监控RegionServer的上下线，异常宕机等（ephemeral node）3. 维护Hbase的元数据表的位置信息 HMaster1. DDL操作2. 记录region在哪台region server上，负责region的分配和负载均衡。3. 负责sp...

2018-04-15 14:28:18 174

原创 hive实现网站用户行为分析指标

字段解释accessDate //访问时间，精确到日期，String格式accessTime //访问时间，精确到毫秒，int格式accessHour //访问小时，区间为0-23，int格式 requestMethod //请求方式（get post 统计的时候没用到），String格式requestProtocal //请求协议（http https，统计...

2018-04-14 21:40:30 2458

原创 hive 分区表

假设我们有数据宾馆的近１０年的数据，格式如下每列的意义| hotel | | | | h_id | id || | h_region | 旅馆行政区划 || | h_hname | 旅馆名称 || | h_address | 旅馆地址 || | h_uname | ...

2018-04-14 19:16:31 313

原创 Tidb 集群在线滚动升级

参考链接https://pingcap.com/docs-cn/op-guide/ansible-deployment/#%E6%BB%9A%E5%8A%A8%E5%8D%87%E7%BA%A7[root@tidb1 tidb-ansible]# mysql -h 192.168.137.161 -uroot -P 4000 -D mysql Reading table information f...

2018-04-13 15:05:09 794

原创 idea 中用spark 2.x 实现不同数据源join (hive join oracle )

pom文件中添加如下相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 23:40:04 223

原创 idea中 spark 2.x 操作 Oracle 11g 表

由于Oracle授权问题，Maven3不提供Oracle JDBC driver，为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。二.手动安装命令如下：（首先电脑安装maven，并配置maven环境 ,windows -cmd/powershell）mvn install:install-file -Dfile=F:\ruanjian\data-integr...

2018-04-05 23:23:26 615

原创 idea中 spark 2.x 操作 hive表

pom文件中添加如下相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 22:54:50 3905

原创 idea 中用spark 2.x 实现不同数据源join (hive join MySQL )

pom文件中添加如下相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 22:37:42 579

wjl7813的博客

原创 spark RDD 之间得依赖关系

原创 spark算子

原创 spark 算子之 reduceByKey与groupByKey的区别

原创 Centos7 安装 SuperSet 过程

原创 Centos 6 安装superset 及遇到的一些坑

原创基于Spark Shuffle Block的优化

原创 spark 处理小文件问题

原创 Spark on YARN占用资源分析 - Spark 内存模型

转载 Apache Spark 内存管理详解

原创 Spark on YARN-Cluster和YARN-Client的区别

转载 YARN的内存和CPU配置

原创 spark 通过 phoenix 操作hbase 表

原创 Hbase shell 常见操作

原创 Hbase 单机安装配置及 phoenix 安装配置搭配使用

原创 hbase 架构和相关组件

原创 hive实现网站用户行为分析指标

原创 hive 分区表

原创 Tidb 集群在线滚动升级

原创 idea 中用spark 2.x 实现不同数据源join (hive join oracle )

原创 idea中 spark 2.x 操作 Oracle 11g 表

原创 idea中 spark 2.x 操作 hive表

原创 idea 中用spark 2.x 实现不同数据源join (hive join MySQL )

空空如也

空空如也