![](https://img-blog.csdnimg.cn/e387583adbd746068b9f4d305b077a98.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 60
学习笔记
一抹鱼肚白
◔_◔
展开
-
Hive UDTF、窗口函数、自定义函数
窗口函数,能为每行数据划分一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据。2.2 语法窗口函数的语法中主要包括“窗口”和“函数”两部分。其中“窗口”用于定义计算范围,“函数”用于定义计算逻辑。selectorder_id,amount,函数(amount) over (窗口范围) total_amount。原创 2023-04-14 11:03:14 · 631 阅读 · 2 评论 -
Hive常用函数
Hive常用函数原创 2023-04-11 19:40:30 · 699 阅读 · 0 评论 -
Hive查询语句
反之返回false。B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母‘x’结尾,而‘%x%’表示A包含有字母‘x’,可以位于开头,结尾或者字符串中间。如果A的值大于等于B而且小于或等于C,则结果为true,反之为false。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。如果A和B都为null或者都不为null,则返回true,如果只有一边为null,返回false。原创 2023-04-10 18:20:03 · 848 阅读 · 0 评论 -
Hive DDL和DML
在关系型数据库管理系统(RDBMS)中,(Data Definition Language)和(Data Manipulation Language)是两类不同类型的SQL语句,用于对数据库进行不同的操作。DML(Data Manipulation Language):DML语句用于对数据库中的数据进行操作,包括查询、插入、更新和删除数据。需要注意的是,DDL语句会对数据库的结构进行修改,可能会对数据库的完整性和安全性产生重大影响,因此通常需要具有足够权限的用户来执行。原创 2023-04-10 10:58:05 · 590 阅读 · 0 评论 -
Hive3.1.3安装及部署
目录1 下载地址2 安装部署2.1 安装Hive2.2 启动并使用Hive2.3 MySQL安装2.3.1 安装MySQL2.3.2 配置MySQL2.3.3 卸载MySQL说明2.4 配置Hive元数据存储到MySQL2.4.1 配置元数据到MySQL2.4.2 验证元数据是否配置成功2.4.3 查看MySQL中的元数据2.5 Hive服务部署2.5.1 hiveserver2服务 2.5.2 metastore服务2.5.3 编写Hive服务启动脚本(了解)配置环境:http://archive.apa原创 2023-04-07 18:44:31 · 2321 阅读 · 0 评论 -
Hive了解
1Hive简介Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。那为什么会有Hive呢?它是为了解决什么问题而诞生的呢?下面通过一个案例,来快速了解一下Hive。例如:需求,统计单词出现个数。(1)在Hadoop课程中我们用MapReduce程序实现的,当时需要写Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。test表id列atguiguatguigussss。原创 2023-04-07 11:36:59 · 522 阅读 · 0 评论 -
SparkSQL之数据加载保存
需要注意的是,如果你没有部署好 Hive,Spark SQL 会在当前的工作目录中创建出自己的 Hive 元数据仓库,叫作 metastore_db。此外,如果你尝试使用 HiveQL 中的CREATE TABLE (并非 CREATE EXTERNAL TABLE)语句来创建表,这些表会被放在你默认的文件系统中的 /user/hive/warehouse 目录中(如果你的 classpath 中有配好的hdfs-site.xml,默认的文件系统就是 HDFS,否则就是本地文件系统)。原创 2023-04-06 16:31:16 · 1101 阅读 · 0 评论 -
SparkSQL之自定义函数
用户可以通过spark.udf功能添加自定义函数,实现自定义功能。原创 2023-04-06 09:26:13 · 862 阅读 · 0 评论 -
SparkSQL核心编程
是 Spark 最新的 SQL 查询起始点,实质上是 SQLContext 和HiveContext 的组合,所以在 SQLContex 和HiveContext 上可用的API 在 SparkSession 上同样是可以使用的。SparkSession 内部封装了 SparkContext,所以计算实际上是由 sparkContext 完成的。原创 2023-04-04 16:11:37 · 613 阅读 · 0 评论 -
SparkSQL 概述
但是,随着Spark 的发展,对于野心勃勃的Spark 团队来说,Shark 对于 Hive 的太多依赖(如采用 Hive 的语法解析器、查询优化器等等),制约了 Spark 的One Stack Rule Them All 的既定方针,制约了 Spark 各个组件的相互集成,所以提出了 SparkSQL 项目。其中 Shark 是伯克利实验室 Spark 生态环境的组件之一,是基于Hive 所开发的工具,它修改了下图所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在 Spark 引擎上。原创 2023-04-03 14:39:35 · 537 阅读 · 1 评论 -
Spark核心编程累加器、广播变量
/ 创建累加器// 向Spark注册累加器word => {// 使用累加器// 获取结果sc.stop()/*1、继承AccumulatorV2,定义泛型IN:累加器输入类型OUT:累加器返回类型2、实现函数*/// 判断是否为空// 复制累加器// 获取累加器需要计算的值// Driver合并多个累加器(2个map的合并)// 累加器结果wcMap广播变量用来高效分发较大的对象。原创 2023-03-30 19:18:01 · 195 阅读 · 0 评论 -
Spark 核心编程RDD
RDD主要知识点原创 2023-03-30 16:34:58 · 813 阅读 · 0 评论 -
Spark运行架构
Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。原创 2023-03-27 14:55:11 · 457 阅读 · 0 评论 -
Spark部署模式对比
端口号。原创 2023-03-27 08:57:43 · 172 阅读 · 0 评论 -
Spark部署之Windows
在同学们自己学习时,每次都需要启动虚拟机,启动集群,这是一个比较繁琐的过程, 并且会占大量的系统资源,导致系统执行变慢,不仅仅影响学习效果,也影响学习进度, Spark 非常暖心地提供了可以在windows 系统下启动本地集群的方式,这样,在不使用虚拟机的情况下,也能学习 Spark 的基本使用.将文件 spark-3.0.0-bin-hadoop3.2.tgz 解压缩到无中文无空格的路径中。先在bin目录下创建input/word.txt。3 执行Scala代码。4 向命令行提交应用。原创 2023-03-27 08:54:04 · 527 阅读 · 0 评论 -
Spark Yarn部署
独立部署(Standalone)模式由 Spark 自身提供计算资源,无需其他框架提供资源。但是你也要记住,Spark 主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的Yarn 环境下 Spark 是如何工作的(其实是因为在国内工作中,Yarn 使用的非常多)。修改 hadoop 配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发。原创 2023-03-27 08:29:03 · 314 阅读 · 0 评论 -
Spark配置高可用HA
Spark高可用性(High Availability)是指在Spark集群中,当某个节点或组件出现故障时,系统可以自动切换到备用节点或组件,以保证整个集群的稳定性和可用性。Spark高可用性的实现可以通过以下两种方式之一:Spark Standalone模式的高可用性:使用Spark自带的HA机制,通过Zookeeper实现主节点的选举和故障转移,从而保证Spark集群的高可用性。原创 2023-03-24 19:28:20 · 963 阅读 · 0 评论 -
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java
今天配置完Spark高可用之后,想要跑一下Pi来验证配置结果,出现一下问题。原创 2023-03-24 19:10:33 · 947 阅读 · 0 评论 -
ContOS7分布式部署ZooKeeper
代表102是Leader,103、104是Follower。在其余两台服务器上也配置环境变量。启动zookeeper服务端。新建data和logs目录。原创 2023-03-24 11:18:50 · 439 阅读 · 1 评论 -
Spark配置历史服务器
由于 spark-shell 停止掉后,集群监控 linux1:4040 页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf。3 注意:需要启动 hadoop 集群,HDFS 上的directory 目录需要提前存在。2 修改 spark-default.conf 文件,配置日志存储路径。4 修改 spark-env.sh 文件, 添加日志配置。原创 2023-03-24 08:47:03 · 894 阅读 · 0 评论 -
Spark standalone模式部署
local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用 Spark 自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark 的 Standalone 模式体现了经典的master-slave 模式。原创 2023-03-23 19:59:04 · 415 阅读 · 0 评论 -
Spark Local模式部署
在shell里面可以写Scala代码,spark-shell还提供了控制台(退出spark-shell,进入spark主目录,运行Pi程序。在这里跑一个wordcount。进入spark-shell。上传Spark文件到。原创 2023-03-23 18:49:43 · 131 阅读 · 0 评论 -
Win10配置Scala环境
打开项目结构设置(ctrl + alt + shift + s),选择Global Libraries,选择添加scala-sdk。下载Scala,解压后再导入IDEA,因为在IDEA里面下太慢了。先打开IDEA设置(ctrl + alt + s),找到。验证Scala环境是否配置完好。,输入Scala,搜索并安装。在项目中增加框架支持。在项目总文件夹下右击。原创 2023-03-17 19:45:16 · 894 阅读 · 0 评论 -
Spark了解
Apache Spark是一个快速、通用、可扩展的分布式计算系统,最初由加州大学伯克利分校的AMPLab开发。Spark可以处理大规模数据处理任务,包括批处理、迭代式算法、交互式查询和流处理等。Spark支持多种编程语言,包括Java、Scala、Python和R等。Spark的核心概念是弹性分布式数据集(Resilient Distributed Dataset,简称RDD),它是一个分布式的内存抽象,可以让开发者在内存中高效地处理数据。Spark还提供了许多高级工具,包括Spark SQL。原创 2023-03-17 19:16:19 · 1423 阅读 · 0 评论 -
Hadoop场景案例参数调优
(1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster。平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)原创 2023-03-16 20:50:28 · 370 阅读 · 0 评论 -
MapReduce生产经验
1 MapReduce跑的慢的原因2 MapReduce常用调优参数map阶段reduce阶段3MapReduce数据倾斜问题原创 2023-03-16 19:28:22 · 293 阅读 · 0 评论 -
HDFS—集群迁移
HDFS—集群迁移。原创 2023-03-16 15:49:09 · 209 阅读 · 0 评论 -
Hadoop小文件归档
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。把/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/output路径下。(1)需要启动YARN进程。原创 2023-03-16 15:40:23 · 327 阅读 · 0 评论 -
Hadoop慢磁盘监控
慢磁盘”指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见,当机器运行时间长了,上面跑的任务多了,磁盘的读写性能自然会退化,严重时就会出现写入数据延时的问题。正常在HDFS上创建一个目录,只需要不到1s的时间。如果你发现创建目录超过1分钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。一般出现慢磁盘现象,会影响到DataNode与NameNode之间的心跳。结果显示,磁盘的总体混合随机读写,读速度为。结果显示,磁盘的总体顺序读速度为。结果显示,磁盘的总体顺序写速度为。原创 2023-03-16 15:13:12 · 543 阅读 · 0 评论 -
Hadoop集群安全模式&磁盘修复
dfs.namenode.safemode.threshold-pct:副本数达到最小要求的block占系统总block数的百分比,默认0.999f。dfs.namenode.safemode.min.datanodes:最小可用datanode数量,默认0。dfs.namenode.safemode.extension:稳定时间,默认值30000毫秒,即30秒。集群处于安全模式,不能执行重要操作(写操作)。如果是磁盘损坏造成的影响,且数据比较重要,此时应将磁盘断电,进行维修。原创 2023-03-15 19:38:08 · 1229 阅读 · 0 评论 -
Hadoop之NameNode故障处理(了解)
之后会用到Hadoop高可用(HA),secondary namenode几乎不会用。原创 2023-03-15 18:40:28 · 1097 阅读 · 0 评论 -
Hadoop异构存储(冷热数据分离)
异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。Hadoop异构存储是指在Hadoop集群中,使用不同种类的存储设备来存储数据。通常情况下,Hadoop集群中的所有节点都使用相同的存储设备,如硬盘或固态硬盘。但是,在某些情况下,使用异构存储可以提高集群的性能和容量。异构存储可以包括不同类型的存储设备,如硬盘、固态硬盘、闪存驱动器、云存储等。使用异构存储可以根据数据的访问模式和访问频率来选择最适合的存储设备,从而提高数据的访问速度和可靠性。原创 2023-03-15 15:16:19 · 1050 阅读 · 3 评论 -
Hadoop3.x纠删码(Erasure Coding)
HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。Hadoop 3中的HDFS(Hadoop Distributed File System)使用了纠删码来提高数据的可靠性和容错性。具体来说,Hadoop 3中引入了一种新的纠删码实现,称为Erasure Coding(EC)。Erasure Coding是一种利用冗余数据来纠正数据丢失或损坏的编码方式。原创 2023-03-14 20:20:21 · 848 阅读 · 0 评论 -
hdfs.DataStreamer: Exception in createBlockOutputStream blk_1073741891_1096java.io.IOException: Got
erasurecode.ErasureCodeNative: ISA-L support is not available in your platform... using builtin-java codec where applicable2023-03-14 19:40:43,567 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted =原创 2023-03-14 19:58:54 · 1738 阅读 · 0 评论 -
HDFS黑名单退役服务器
黑名单:表示在黑名单的主机IP地址不可以,用来存储数据。企业中:配置黑名单,用来退役服务器。添加如下主机名称(要退役的节点)原创 2023-03-13 16:09:07 · 1452 阅读 · 0 评论 -
HDFS服务器间数据均衡
在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令。原创 2023-03-13 15:52:49 · 649 阅读 · 0 评论 -
Hadoop服役新服务器
由于优先上传本地节点,在105中必有文件块,当105节点上传较多,导致文件不均衡,下一篇进行解决。登录之后检查hostname和ip、网关是否正常。分发白名单,并在105上面也将105加入白名单。从hadoop105节点上传文件到HDFS系统。此时在hdfs中就存在hadoop105了。本篇以虚拟机为例,安装好CentOS7系统。102进入home目录,再进入.ssh目录。因为过去生成的clustr id不再适用。输入yes和105的密码即可。hadoop102里面有。hadoop103里面有。原创 2023-03-13 15:42:40 · 457 阅读 · 0 评论 -
HDFS添加白名单
在whitelist中添加如下主机名称,假如集群正常工作的节点为102 103。白名单:表示在白名单的主机IP地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。原创 2023-03-13 14:36:54 · 326 阅读 · 0 评论 -
Hadoop3.x集群数据均衡之磁盘间数据均衡
生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)(3)查看当前均衡任务的执行情况。原创 2023-03-13 14:06:49 · 175 阅读 · 0 评论 -
NameNode、DataNode多目录配置
(2)停止集群,删除三台节点的data和logs中所有数据。由于集群中每个服务器硬盘配置不同,不建议分发,相同时可以分发。(1) 在hdfs-site.xml文件中添加如下内容。在hdfs-site.xml文件中添加如下内容。NameNode的本地目录可以配置成多个,,增加了可靠性,但是可靠性也不高,了解即可。(3)格式化集群并启动。每个目录存储的数据不一样。且每个目录存放内容相同。原创 2023-03-13 14:04:22 · 537 阅读 · 0 评论