wjl7813-CSDN博客

原创 spark 物理执行之 job、stage、taskset

物理图的作用是什么?问题一: 物理图的意义是什么?物理图解决的其实就是RDD流程生成以后, 如何计算和运行的问题, 也就是如何把 RDD 放在集群中执行的问题问题二: 如果要确定如何运行的问题, 则需要先确定集群中有什么组件首先集群中物理元件就是一台一台的机器其次这些机器上跑的守护进程有两种:Master,Worker 每个守护进程其实就代表了一台机器, 代表这台机器的角色, 代表这台机器和外界通信例如我们常说一台机器是Master,...

2020-09-12 09:43:51 783

原创 spark core之 RDD 之间的依赖关系

什么是RDD之间的依赖关系? 什么是关系(依赖关系) ? 从算子视角上来看,splitRDD通过map算子得到了tupleRDD, 所以splitRDD和tupleRDD之间的关系是map 但是仅仅这样说, 会不够全面, 从细节上来看,RDD只是数据和关于数据的计算, 而具体执行这种计算得出结果的是一个神秘的其它组件, 所以, 这两个RDD的关系可以表示为splitRDD的数据通过map操作, 被传入tupleRDD, 这是它们之间更细...

2020-09-10 23:24:09 295

原创 sparksession wordcount

package com.wjl7813.spark.core.rdd.transformationsimport org.apache.spark.sql.SparkSessionobject WordCount { def main(args: Array[String]): Unit = { val spark =SparkSession.builder().appName("WordCountexample").master("local[4]").getOrCreate(.

2020-09-05 17:19:41 388

原创 Centos7下python2.7升级至3.6

1.下载python3.6：wgethttps://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz2.解压：tar -xzf Python-3.6.4.tgz3.安装：cd Python-3.6.4　　　　./configure --prefix=/usr/local/python3.6　　　　make　　　　ma...

2019-08-14 08:34:25 264

原创维度建模之星型模型与雪花模型

2019-02-26 17:15:06 2146

原创数据库模型设计之---- 关系范式

================== 第一范式 ==================================== 第二范式 ============================================= 第三范式 =================

2019-02-25 19:08:39 321

原创传统CIF 数据仓库架构分层

2019-02-25 18:03:07 1661

原创认识数据仓库

认识数据仓库什么是数据库？1.数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库2.数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享那么，数据仓库是？数据仓库发展史数据仓...

2019-02-25 17:59:37 428

原创 informatica Aggregator 组件使用练习

Aggregator 组件使用练习将采购清单订单日期、产品名称、供应商进行汇总，统计每天各供应商出售某种产品多少。描述– 将采购清单订单日期、产品名称、供应商进行汇总，统计每天各供应商出售某种产品多少。– 源表：• SDBU.PRODUCT• FILE FLAT ORDER.TXT– 目标：• TDBU.STG_ORDER_AMOUNT4要点– 订单文本文件与产品表的关联...

2019-02-21 22:12:38 704

原创 informatica joiner 组件异构 join练习

描述– 将员工信息与员工工资2个异构表关联后，将关联结果数据倒入到暂存区。– 源表：• Employees_layout结构• Employees_list.txt文件目录• Employees_east.txt• Employees_west.txt• Employees_central.txt• Salary.txt– 目标：• TDBU.STG_EMPLOYEES4 ...

2019-02-21 22:08:52 1060

原创 informatica 非连接 lookup 练习

描述– 将合格的员工信息去员工工资文本文件查询员工工资信息，未查到的工资默认为0，最后将结果数据倒入到暂存区。– 源表：• Employees_layout结构• Employees_list.txt文件目录• Employees_east.txt• Employees_west.txt• Employees_central.txt• Salary.txt– 目标：• TDB...

2019-02-21 21:31:43 533

原创 informatica lookup 组件之connect 练习

描述– 将员工信息去员工工资文本文件查询员工工资信息，未查到的工资默认为0，最后将结果数据倒入到暂存区。– 源表：• Employees_layout结构• Employees_list.txt文件目录• Employees_east.txt• Employees_west.txt• Employees_central.txt• Salary.txt– 目标：• TDBU.S...

2019-02-21 21:26:46 429

原创 informatica filter 与 router 组件实现数据分发对比

描述– 将暂存区的客户信息按照性别分别导入到男、女、性别不明三张表内。– 源表：• TDBU.STG_CUSTOMERS– 目标：• TDBU.STG_CUSTOMERS_FEMALE• TDBU.STG_CUSTOMERS_MALE• TDBU.STG_CUSTOMERS_UNK4要点– 偿试用Filter组件多种方法对目标进行装载– 偿试与用Pushdown Option...

2019-02-21 03:27:47 527

原创 informatica expression 表达式组件练习（一）

练习一： Expression组件4描述– 将原始客户信息记录转换成合格标准的数据倒入到暂存区。– 源表：• customer_east.txt• customer_west.txt• customer_central.txt– 目标：• TDBU.STG_CUSTOMERS4要点– 将源表的姓与名合并至目标一个字段– 性别转换– 电话号码转换– 将源表的年龄按段值范围进...

2019-02-18 01:02:52 1770 1

原创 win7 安装 informatica server 和 client

Oracle 安装略过！！！create tablespace rep_data nologgingdatafile ‘D:\APP\ORADATA\ORCL\rep_data.dbf’ size 512mautoextend on next 20M MAXSIZE 30gextent management local segment space management auto;cre...

2019-02-18 00:46:54 415

原创 Centos6 安装superset 另类方法

http://superset.apache.org/installation.html 参考官方文档sh Anaconda3-2018.12-Linux-x86_64.shconda install python=3.6python -m pip install --upgrade pip --force-reinstallyum -y groupinstall "Devel...

2019-01-18 20:33:02 428 1

原创解决 git clone 报错 fatal: HTTP request failed 问题及升级后ssl 问题

解决 git clone 报错 fatal: HTTP request failed 问题及升级后ssl 问题yum remove -y git yum install curl curl-devel zlib-devel openssl-devel perl cpio expat-devel gettext-devel -y wget http://www.codemonkey...

2018-12-21 03:41:56 850

原创 Tidb 2.0 GA 版本集群安装部署及处理相关报错信息

主机之间能够相互解析[root@tidb1 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192...

2018-05-06 10:02:03 1706

原创 Flume 与Kafka 整合

整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks = kafka-sinkavro-memory-kafka.channels = memory-channelavro-memory-kafka.sources.avro-source.type...

2018-05-01 23:49:41 234

原创 Hive 元数据相关信息

Hive元数据信息默认使用derby存储，最好调整为mysql，postgre等rdbms。Hive元数据存常用的一些表：select * from DBS;select * from COLUMNS_V2;select * from PARTITIONS;select * from PARTITION_KEYS;select * from TABLE_PARAMS;select * from T...

2018-05-01 17:19:08 211

原创 spark RDD 之间得依赖关系

RDD中不同的操作会使得不同RDD中的分区会产生不同的依赖。RDD中的依赖关系分为窄依赖（Narrow Dependency）与宽依赖（Wide Dependency），图9-10展示了两种依赖之间的区别。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区，或多个父RDD的分区对应于一个子RDD的分区；比如图9-10(a)中，RDD1是RDD2的父RDD，RDD2是子RDD，RDD1的分区1，...

2018-04-30 23:12:44 1382

原创 spark算子

简单来说，Spark 算子大致可以分为以下两类:Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。...

2018-04-30 22:50:50 260

原创 spark 算子之 reduceByKey与groupByKey的区别

补充：reduceByKey与groupByKey的区别？ [优化代码的最基本思路]（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用...

2018-04-30 16:16:04 1692

原创 Centos7 安装 SuperSet 过程

https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel...

2018-04-18 08:36:18 1352

原创 Centos 6 安装superset 及遇到的一些坑

参考文档见官网；地址如下连接https://superset.incubator.apache.org/installation.htmlsudo yum upgrade python-setuptools -y sudo yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel ...

2018-04-18 01:17:02 2085

原创基于Spark Shuffle Block的优化

org.apache.spark.storage.DiskStore if(length<minMemoryMapBytes){ valbuf=ByteBuffer.allocate(length.toInt) channel.position(offset) while(buf.remaining()!=0){ if(channel.read(buf)==-1){ thrown...

2018-04-18 00:11:45 874

原创 spark 处理小文件问题

coalesce与repartition 解决小文件问题repartition(numPartitions: Int)  返回numPartitions分区个数的新RDD(或DataFrame)。  可以增加或减少此RDD中的并行性级别，内部使用shuffle来重新分配数据。  如果要减少partition数量，可考虑使用`coalesce`，这可以避免执行shuffle。 ...

2018-04-18 00:04:44 8132

原创 Spark on YARN占用资源分析 - Spark 内存模型

Spark的Excutor的Container内存有两大部分组成：堆外内存和Excutor内存A) 堆外内存(spark.yarn.executor.memoryOverhead) 主要用于JVM自身的开销。默认：MAX(executorMemory*0.10,384m)B) Excutor内存(spark.executor.memory) Execution:shuffle、排序、...

2018-04-17 11:26:17 2446

转载 Apache Spark 内存管理详解

本文援引自IBM知识库，链接如下https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.htmlSpark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark ...

2018-04-16 23:47:33 149

原创 Spark on YARN-Cluster和YARN-Client的区别

YARN-Cluster和YARN-Client的区别（1）SparkContext初始化不同，这也导致了Driver所在位置的不同，YarnCluster的Driver是在集群的某一台NM上，但是Yarn-Client就是在driver所在的机器上；（2）而Driver会和Executors进行通信，这也导致了Yarn_cluster在提交Ap...

2018-04-16 23:29:37 9359 2

转载 YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经验，每两个co...

2018-04-16 20:16:06 306

原创 spark 通过 phoenix 操作hbase 表

参考文档http://phoenix.apache.org/phoenix_spark.html

2018-04-16 00:28:41 3266

原创 Hbase shell 常见操作

Hbase Shell常用操作：1. 创建表create '表名', '列族名1','列族名2' create 'testorder', 'info','orders'2. 查看表查看所有表列表：list查看某个表的信息： desc '表名' 或者 describe '表名'查看表是否存在： exists '表名'3. 插入数据put '表名', 'rowkey值', '列族: 列名' ,'值...

2018-04-15 17:37:01 306

原创 Hbase 单机安装配置及 phoenix 安装配置搭配使用

先安装配置zookeeper==== ZOOKEEPER 安装配置=== [hadoop@node1 ~]$ tar xf ~/^Cftware/zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app[hadoop@node1 conf]$ cd ~/app/zookeeper-3.4.5-cdh5.7.0/conf/[hadoop@node1 conf]$ cp -r...

2018-04-15 16:59:44 1040

原创 hbase 架构和相关组件

Zookeeper1. 保证HMaster节点的HA （ephemeral node）2. 保存RegionServer节点的信息，监控RegionServer的上下线，异常宕机等（ephemeral node）3. 维护Hbase的元数据表的位置信息 HMaster1. DDL操作2. 记录region在哪台region server上，负责region的分配和负载均衡。3. 负责sp...

2018-04-15 14:28:18 174

原创 hive实现网站用户行为分析指标

字段解释accessDate //访问时间，精确到日期，String格式accessTime //访问时间，精确到毫秒，int格式accessHour //访问小时，区间为0-23，int格式 requestMethod //请求方式（get post 统计的时候没用到），String格式requestProtocal //请求协议（http https，统计...

2018-04-14 21:40:30 2458

原创 hive 分区表

假设我们有数据宾馆的近１０年的数据，格式如下每列的意义| hotel | | | | h_id | id || | h_region | 旅馆行政区划 || | h_hname | 旅馆名称 || | h_address | 旅馆地址 || | h_uname | ...

2018-04-14 19:16:31 313

原创 Tidb 集群在线滚动升级

参考链接https://pingcap.com/docs-cn/op-guide/ansible-deployment/#%E6%BB%9A%E5%8A%A8%E5%8D%87%E7%BA%A7[root@tidb1 tidb-ansible]# mysql -h 192.168.137.161 -uroot -P 4000 -D mysql Reading table information f...

2018-04-13 15:05:09 794

原创 idea 中用spark 2.x 实现不同数据源join (hive join oracle )

pom文件中添加如下相关依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>&am

2018-04-05 23:40:04 223

原创 idea中 spark 2.x 操作 Oracle 11g 表

由于Oracle授权问题，Maven3不提供Oracle JDBC driver，为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。二.手动安装命令如下：（首先电脑安装maven，并配置maven环境 ,windows -cmd/powershell）mvn install:install-file -Dfile=F:\ruanjian\data-integr...

2018-04-05 23:23:26 615

空空如也

空空如也