小白熊wzb-CSDN博客

转载 Hive优化思路

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后，

2022-03-23 18:18:40 560

转载 clickhouse简介

什么是ClickHouseClickHouse 是俄罗斯的Yandex(类似于百度等在我们国家的地位)于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告(优势:快))。什么是列式存储以下面的表为例：Id Name Age1 张三 182 李四 223 王五 34采用行式存储时，数据在磁盘上的组织结构为：(相同颜色代表一行)好处是想查某个人所有的属性时，可以通过一次磁盘查找加顺序读取就可以。但是当想查所有人的年龄

2022-03-22 19:26:54 15136 1

转载 hive中的数据类型

数据类型1.Hive中的数据类型分为两类：基本类型和复杂类型2.基本类型包含：tinyint，smallint，int，bigint，float，double，boolean，string，timestamp，binary3.复杂类型：array，map和structa. array：数组类型，对应了Java中的集合或者数组。原始数据jack,john lucy,miketom,bob,cindy lily,helen,mary,alexfrank,grace,iran,eden tony

2022-03-21 18:15:16 19795

转载 hive和传统数据库的区别

1、数据存储位置。Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式。Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。3、数据更新。Hive的内容是读多写少的，因此，不支持对数据的改写和删除，数据都在加载的时候中确定好的。数据库中的数据通常是需要经常进行修改。4、执行延迟。H

2022-03-20 20:47:31 3518

转载 hive的常见文件存储格式

在hive中，较常见的文件存储格式有：TestFile、SequenceFile、RcFile、ORC、Parquet、AVRO。默认的文件存储格式是TestFile，在建表时若不指定默认为这个格式，那么导入数据时会直接把数据文件拷贝到hdfs上不进行处理。除TestFile外的其他格式的表不能直接从本地文件导入数据，数据要先导入到TestFile格式的表中，然后再从表中用insert导入到其他格式的表中。TestFile格式在建表时无需指定，Hive的默认文件格式，文件存储方式为正常的文本格式。以T

2022-03-20 20:43:05 3347

转载 hive内部表和外部表的区别

区别创建内部表：内部表直接创建，不需要加关键字create table if not exits xm_testA( KEHUMC VARCHAR(50) COMMENT '客户名称'， KEHUZH VARCHAR(50) COMMENT '客户号')COMMENT '客户信息表'外部表：外部表的创建需要加上external关键字修饰，可以通过location指定hive仓库的路径create external table if not exits xm_tes

2022-03-18 17:18:24 1720

转载 scala中隐式函数的使用

简介所谓隐式函数指的是那种以implicit关键字声明的带有单个参数的函数。正如它的名称所表达的，这样的函数将会自动应用，将值从一种类型转换为另一种类型。隐式函数的使用需求分析：使用隐式函数解决数据类型的转换问题object ImplicitDemo01 { def main(args: Array[String]): Unit = { // 编写一个隐式函数将Double =》 Int implicit def douToInt(d: Double): Int = {...

2022-03-17 22:29:33 162

转载 Spark saveAsTextFile

当我运行完一个Spark程序想把结果保存为saveAsTextFile，结果使用hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part，好几千个。原因：运行Spark的时候把数据分成了很多份（partition），每个partition都把自己的数据保存在partxxx文件夹。如果想保存为一份的话，就要：先collect或者data.coalesce(1,true).saveAsTextFile()You can also use repartiti..

2022-03-16 16:58:41 1742

转载 spark中RDD的键值转换操作

groupBygroupBy(function)function返回key，传入的RDD的各个元素根据这个key进行分组def main(args: Array[String]): Unit = { //默认分区12个 val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("test").set("spark.default.parallelism", "12")) var rdd1 = sc.

2022-03-15 17:12:10 593

转载 shuffle简介

一、shuffle概述。 hadoop中mapper之后，reducer之前的阶段称之为shuffle，是mapreduce的核心。我们不用知道它的定义，只需要知道它的功能，以及它的优化。为什么会有shuffle？ hadoop中，map负责数据的初级拆分获取解析，reduce负责最终数据的集总，除了业务逻辑的功能外，其他的核心数据处理都是由shuffle来支持。 shuffle中有什么简单来说，shuffle中有三次的数据排序第一次是快速排序，这是因为第一...

2022-03-14 17:55:49 3983

转载 flink相关问题汇总

1.看你用了Flink，简单介绍一下Flink？Flink是一个实时计算框架，他和spark都是流批一体计算框架，flink提供了有界流和无界流的计算，有界流其实就是flink认为数据是流式的为大多数情况，批量的为小部分情况，也就是说数据有边界叫有界流，数据没有边界叫无界流，也就是无限实时生成的数据。flink主要对外的API有 DataSet API、DataStream API、Table API图计算、机器学习。对外提供了有java 和scala、python两种语言接口。2. Fl

2022-03-13 18:01:53 395

转载 java集合相关问题总结

1.ArrayListVS LinkedList1)ArrayList是用一个可扩容的数组来实现的，LinkedList是用链表实现的2)数组和链表之间最大的区别就是数组是可以随机访问的而链表只能从头开始逐个遍历3)两者在增删改查操作上的区别在改查这两个功能上因为数组能够随机访问所以ArrayList效率高在增删这两个功能上如果不考虑找到这个元素的时间数组因为物理上的连续性当要增删元素时在尾部还好但是其他地方就会导致后续元素都要移动所以效率极低而链...

2022-03-13 17:55:35 155

转载 spark常见算子之间的区别

一、reduceByKey和groupByKey的区别1、reduceByKey：按照 key进行聚合，在 shuffle 之前有 combine(预聚合)操作，返回结果是 RDD[k,v]。2、groupByKey：按照 key进行分组，直接进行 shuffle。开发指导：reduceByKey比 groupByKey，建议使用。但是需要注意是否会影响业务逻辑。1、reduceByKey(func)：使用 func 函数合并具有相同键的值。val list = List("hadoop",

2022-03-13 17:46:40 409

原创 spark和Mapreduce的对比

1.spark和Mapreduce的简单介绍MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个

2022-03-10 18:26:19 8871

转载 sql的六种约束

/*数据库的约束*//*1.not null 非空约束 ①强制列不接受空值 ②例：创建表时，name varchar(6) not null,2.unique 唯一性约束 ①约束唯一标识数据库表中的每条记录 ②unique和primary key都为数据提供了唯一性约束 ③primary key 拥有自动定义的Unique约束 ④注意：每个表中只能有一个primary key约束，但是可以有多个Unique约束 ⑤语法： 1.name int unique 2.unique(.

2022-03-09 18:19:45 2446

转载 sql中的主键和外键

主键主键的定义主键：表中经常有一个列或多列的组合，其值能唯一地标识表中的每一行。这样的一列或多列称为表的主键，通过它可强制表的实体完整性。当创建或更改表时可通过定义 PRIMARY KEY 约束来创建主键。一个表只能有一个 PRIMARY KEY 约束，而且 PRIMARY KEY 约束中的列不能接受空值。由于 PRIMARY KEY 约束确保唯一数据，所以经常用来定义标识列。作用:1）保证实体的完整性;2）加快数据库的操作速度3）在表中添加新记录时，DBMS会自动检查新记录的主键值，不

2022-03-08 20:00:57 5322

转载 ETL基础知识

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store，操作型数据存储)中——这个

2022-03-07 19:15:23 874

weixin_45216482的博客

转载 Hive优化思路

转载 clickhouse简介

转载 hive中的数据类型

转载 hive和传统数据库的区别

转载 hive的常见文件存储格式

转载 hive内部表和外部表的区别

转载 scala中隐式函数的使用

转载 Spark saveAsTextFile

转载 spark中RDD的键值转换操作

转载 shuffle简介

转载 flink相关问题汇总

转载 java集合相关问题总结

转载 spark常见算子之间的区别

原创 spark和Mapreduce的对比

转载 sql的六种约束

转载 sql中的主键和外键

转载 ETL基础知识

原创 Kafka常见问题汇总

原创大数据之数据建模

原创什么是用户画像？

原创数据仓库中维度表的规范化问题

原创 Flume数据采集工具之agent

原创大数据常见技术栈简介

原创数据仓库分层

转载【常见的7种排序算法】

空空如也

空空如也