沉浮。-CSDN博客

原创 MapReduce和Spark的区别

普通回答： mapreduce是基于磁盘的所以慢，spark是基于内存的所以快。晋级回答：① mapreduce是基于磁盘的，spark是基于内存的。mapreduce会产生大量的磁盘IO，而 spark基于DAG计算模型，会减少Shaffer过程即磁盘IO减少。②spark是多线程运行，mapreduce是多进程运行。进程的启动和关闭和会耗费一定的时间。③兼容性：spark可单独也可以部署为on yarn模式，mapreduce一般都是on yarn模式④shuffle与排序，mapredu

2022-06-21 10:53:14 1589

原创 yarn基础知识、执行原理、任务的推测执行

1.简介是hadoop的第三个组件是一个资源调度器从另一个角度分析，yarn可以看成是一个管理集群的操作系统运行在hadoop上，所以yarn对整个集群内所有节点提供管理服务 2.角色(1) ResourceManager 资源管理者，管理整个集群的整体的资源调度全局只有一个，一般与NameNode在同一个节点上 (2) NodeManager 节点管理者，管理的是当前节点的资源调度全局有多个，每个DataNode节点都有

2022-04-19 15:49:38 635

原创 MySQL函数 if 的使用

定义IF函数根据条件的结果为true或false，返回第一个值，或第二个值语法IF(condition, value_if_true, value_if_false)参数参数描述condition 必须，判断条件value_if_true 可选，当条件为true值返回的值value_if_false 可选，当条件为false值返回的值例子当查询表里的性别字段时，用IF函数，将表中存的数字转换成字符串查出来首先建一个学生表CREATE TA...

2022-04-09 17:54:47 6306

原创连接查询与子查询哪个好

一般来讲连接查询效率更高，因为子查询会多次遍历数据，而连接查询只遍历一次，但是如果数据量较少的话子查询更加容易控制。但如果数据量大的话两者的区别就会很明显，对于数据量多的肯定是用连接查询快些，原因：因为子查询会多次遍历所有的数据（视你的子查询的层次而定），如果你的子查询是在无限套娃，且每张表数据量不大，使用子查询效率高。连接查询只会遍历一次，但是数据量少的话也就无所谓是连接查询还是子查询，多表数据量大建议采用连接查询。注：连接查询是SQL查询的核心，连接查询的连接类型选择依据实际需求。如果选

2022-04-08 15:19:06 8350 1

原创数据库、数据仓库以及它们的区别

了解数据库与数据仓库的区别之前，首先掌握三个概念。数据库软件、数据库、数据仓库。数据库软件：是一种软件，可以看得见，可以操作。用来实现数据库逻辑功能。属于物理层。数据库：是一种逻辑概念，用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里可以有很多字段。字段一字排开，对应的数据就一行一行写入表中。数据库的表，在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如：Oracle、DB2、MySQL、Sybase、MS SQL Server等。数据仓库：是

2022-04-07 13:21:10 719 1

原创 spark总结

spark一、了解spark1.离线分析把一段时间的数据经过收集，整理，分析，得出一定的结论这个结论会帮助人们做一些决策不要求时限性对数据的处理方式：批处理 2.实时分析必须要求时效性，数据实时产生，实时处理对数据的处理方式：流处理 3.spark 对于大规模数据处理的一个快如闪电的统一的分析引擎（计算框架）作者：美国加州大学伯克利分校AMP（A：算法，M：机器，P：人）实验室通过对算法，机器和人的

2022-04-06 11:46:03 4050

原创【剑指offer 58】左旋转字符串

题目描述：字符串的左旋转操作是把字符串前面的若干个字符转移到字符串的尾部。请定义一个函数实现字符串左旋转操作的功能。比如，输入字符串"abcdefg"和数字2，该函数将返回左旋转两位得到的结果"cdefgab"。示例：思路1：用Java自带的subString方法。将字符串分割成两部分然后再拼接。思路2：将字符串转换成字符数组，然后先将下标为n的到下标为s.length的存放到新的字符数组。然后再存放下标为0到n-1的。最后转换...

2022-04-04 19:58:17 510

原创【剑指offer 05】

题目描述：请实现一个函数，把字符串 s 中的每个空格替换成"%20"。示例：思路：由于字符串不能通通过下表遍历，我们需要把字符串转换为字符数组再进行操作。假设字符串全部是空格，那么替换后的长度为 3*s.length。我们需要再创建一个长度为 3*s.length 的字符数组进行赋值与替换。最后只需把这个字符数组转换成字符串即可（注意字符数组是怎么转换成字符串的）。实现代码：class Solution { pub...

2022-04-04 16:48:32 429

原创 CASE函数

CASE函数是一种多分支的函数，可以根据条件列表的值返回多个可能的结果表达式中的一个。可用在任何允许使用表达式的地方，但不能单独作为一个语句执行。分为：简单CASE函数搜索CASE函数简单 CASE函数 1 2 3 4 5 6 CASE 测试表达式 WHEN 简单表达式1THEN 结果表达式1 WHEN 简单表达式2THEN 结果表达式2 … WHEN 简单表达式nTHEN 结果表达式n...

2022-04-02 16:40:39 1306

原创 spark on hive 和 hive on spark 的区别：

spark on hive :hive只作为存储角色，spark 负责sql解析优化，底层运行的还是sparkRDD具体可以理解为spark通过sparkSQL使用hive语句操作hive表，底层运行的还是sparkRDD，步骤如下： 1.通过sparkSQL，加载Hive的配置文件，获取Hive的元数据信息2.获取到Hive的元数据信息之后可以拿到Hive表的数据...

2022-04-01 13:29:58 2714

原创 spark-shuffle

详细文档：Spark中的Spark Shuffle详解 - 大葱拌豆腐 - 博客园(1) HashShuffle(1.2版本之前默认使用)普通机制：产生的文件数量是 M*R，小文件太多合并机制：产生的文件数量是 Core*R，比普通机制少，但是也是很多(2) SortShuffle(1.2版本之后默认使用)普通机制：每个task产生一个磁盘文件由于数据都在里面，另有一个索引文件。需要排序byPass机制：如果task数量小于等于阈值（默认200），使用此机制不需排序，节省

2022-03-28 17:50:06 1421

原创 spark-持久化策略

持久化在java中，把数据写入数据库的过程在spark中，把RDD临时永久地写入到节点地某个位置（磁盘或内存）永久：避免当前RDD被当作垃圾回收掉，对其永久保存临时：即使做了持久化，在内存中也不是绝对地安全 a.由于某种特殊情况，会被当作垃圾回收掉 b.没有意外情况下，根据LRU也会被当作垃圾回收掉容错机制如果持久化的数据丢失了，spark会自动从HDFS上找数据重新计算到这个位置，自动持久化。使用缓存算子： cach.

2022-03-28 11:20:27 1999

原创 Spark-并行度

(1) textFile 可以读取单独的文件数据，也可以读取整个路径下的所有文件数据把所有文件一一个文件的形式进行处理。如果指定并行度，直接使用如果没有指定并行度，走默认的最小分区数最小分区数 = math.min(默认并行度，2) 默认并行度： a.如果设置了 spark.default.parallelism 直接读取 b.如果没设置 ①本地模式：当前节点的cpu总核心数 ②独立模式：适用父类（分布式）的方式 ③分布式模式：当前集

2022-03-28 10:43:15 1962

原创剑指offer 06

题目描述：输入一个链表的头节点，从尾到头反过来返回每个节点的值（用数组返回）。代码描述：/** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */class Solution { public int[] reversePrint(List

2022-03-22 21:13:40 303

原创剑指offer 30

题目描述：定义栈的数据结构，请在该类型中实现一个能够得到栈的最小元素的 min 函数在该栈中，调用 min、push 及 pop 的时间复杂度都是 O(1)。代码描述：import java.util.Iterator;import java.util.Stack; class MinStack { public MinStack() { } Stack stack = new Stack(); //入栈 public void pus.

2022-03-21 21:18:39 500

原创【无标题】剑指offer 09

剑指offer 09：题目描述：用两个栈实现一个队列。队列的声明如下，请实现它的两个函数 appendTail 和deleteHead ，分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素，deleteHead 操作返回 -1 )代码实现：class CQueue { public CQueue() { } Stack sta1 = new Stack(); Stack sta2 = new

2022-03-21 21:15:00 84

原创 spark 常见算子

1.行动算子collectAsMap：相当于map操作，去掉键相同的键值对 //如果RDD中同一个Key中存在多个Value，那么后面的Value将会把前面的Value覆盖， //最终得到的结果就是Key唯一，而且对应一个Value。count：计数，返回rdd中的元素数量countByKey：用来统计RDD[k,v]中每个k的数量countByValue：统计出集合中每个元素的个数first：返回RDD中的第一个元素，不排序。reduce：对集合中的数依次进行相关计算。

2022-03-21 07:39:20 2192

原创 rowKey设计原则

rowkey设计原则 a.唯一原则一定要保证当前的rowkey是所有数据的唯一一行 b.长度原则在满足唯一原则的基础上，尽可能的减少rowk的容量大小如果rowkey有特殊的排序需求的时候，要补齐位数 rowkey理论上支持64k的容量，一般10-100byte比较合理，越短越好 c.散列原则如果按照keyPrefix原则拆分region，容易产生热点问题，比如手机号段解决热点问题： 1...

2022-03-19 15:28:33 2059

原创常见的数据结构

常见的有八种：数组，栈，链表，队列，树，图，堆，散列表详细介绍看链接：https://blog.csdn.net/yeyazhishang/article/details/82353846

2022-03-18 19:45:06 157

原创 3.15刷题整理

一、项目：1. 项目中最大的收获是啥2. 担任角色3. 在什么模式上提交4. sprak的组件1．Spark SQLSpark SQL是Spark用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据。Spark SQL支持多种数据源类型，例如Hive表、Parquet以及JSON等。Spark SQL不仅为Spark提供了一个SQL接口，还支持开发者将SQL语句融入到Spark应用程序开发过程中，无论是使用

2022-03-16 21:14:14 203

原创三范式与反三范式

一:首先说一下什么是三大范式:　　1.第一范式（1NF）：确保每一列的原子性（做到每列不可拆分）　　2.第二范式（2NF）：在第一范式的基础上，非主字段必须依赖于主字段（一个表只做一件事）　　3.第三范式（3NF）：在第二范式的基础上，消除传递依赖　　上面都是官话 ,对于设计表来说第一范式是什么意思呢看表1-1　　　　 ...

2022-01-13 19:52:05 1220 1

原创 Hadoop集群 ——高可用（HA）

保证集群运行的高稳性。1.相关版本： Hadoop1.x 没有高可用 Hadoop2.x 自己手动配置高可用 Hadoop3.x 框架中已经支持高可用，无需手动配置2.实现原理：在一个集群中，有两个NameNade 同一时刻只能有一个NameNode处于active状态，另一个处于standby状态这两个NameNode通过zookeeper实现数据的实时同步 ...

2021-12-05 18:36:50 1694

原创 hive有关的16道面试题：

本文目录 No1. 请谈一下 Hive 的特点 No2. Hive 底层与数据库交互原理？ No3. Hive 的 HSQL 转换为 MapReduce 的过程？ No4. Hive 的两张表关联，使用 MapReduce 怎么实现？ No5. 请说明 hive 中 Sort By，Order By，Cluster By，Distrbute By 各代表什么意思？ No6. 写出 hive 中 split、coalesce 及 collect_li..

2021-12-03 12:16:36 3716 1