大数据
文章平均质量分 91
以知识点为,主练习其次
泽泽野
从事大数据开发工作,不断提升,相互学习
展开
-
Hive内核调优(三)
了解业务需求后,考虑使用直接编写MR实现,MAP的输入为用户信息表USER及所有指标表的目录下的文件,MAP输出为用户ID、指标值,REDUCE输入为用户ID、指标值序列,REDUCE输出为用户ID和按顺序排列的指标值,落地成结果文件。如下场景,需要将用户信息表USER与INDICT_1、INDICT_2、INDICT_3、INDICT_4、INDICT_5等一定数量的指标表进行关联,目标是汇总用户的所有指标到一个新的用户指标表,一方面SQL比较冗长,另一方面由于多次join性能较低。原创 2023-12-30 04:01:58 · 986 阅读 · 0 评论 -
Hive内核调优(二)
SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。原创 2023-12-26 22:13:16 · 1030 阅读 · 0 评论 -
Hive内核调优(一)
注:CPU时间:表示运行程序所占用服务器CPU资源的时间。用户等待耗时:记录的是用户从提交作业到返回结果期间用户等待的所有时间。原创 2023-12-26 22:04:19 · 1083 阅读 · 0 评论 -
Apache ZooKeeper
Apache Zookeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance) 等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。原创 2023-04-05 20:22:06 · 412 阅读 · 0 评论 -
Hive 调优指南
Apache Hive 是一个基于 Hadoop 的数据仓库解决方案,用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率,本文将介绍一些 Hive 调优的策略和方法。原创 2023-04-05 19:45:22 · 525 阅读 · 0 评论 -
HiveSQL 练习题及答案
以下是一些 HiveSQL 练习题目,包括创建表、插入数据、查询数据等操作。这些题目将帮助您巩固 HiveSQL 的知识。原创 2023-04-05 19:27:06 · 493 阅读 · 0 评论 -
Hive部署 及 HiveSQL 概念与使用
Hive 允许用户创建自定义函数以满足特定需求。要创建一个 UDF,需要编写一个 Java 类并实现 org.apache.hadoop.hive.ql.exec.UDF 接口,然后使用 CREATE FUNCTION 语句将其注册到 Hive 中。本文介绍了如何在三台服务器上部署 Apache Hive,以及 HiveSQL 的概念和使用方法。通过部署 Hive 和使用 HiveSQL,您可以更轻松地查询和分析存储在Hadoop 上的结构化数据。原创 2023-04-05 19:16:31 · 175 阅读 · 0 评论 -
Apache Hive:概念与组成
Apache Hive 是一个基于 Hadoop 的数据仓库工具,适用于处理和分析大量结构化数据。Hive 提供了类 SQL 查询语言(HiveQL),便于用户查询和分析数据。然而,Hive 存在一些局限性,如查询性能较慢、不支持实时数据处理等。针对这些局限性,可以选择其他大数据工具,如 Presto、Impala 或 Apache Spark。原创 2023-04-05 19:03:06 · 338 阅读 · 0 评论 -
大数据之Zabbix
大数据之Zabbix文章目录大数据之Zabbix第1章 Zabbix入门1.1 Zabbix概述1.2 Zabbix 基础架构第2章 Zabbix部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙(3台节点,已关闭)2.2.3 关闭SELinux(hadoop102)2.3 配置Zabbix yum源(3台节点)2.3.1 安装yum仓库2.3.2 修改zabbix仓库配置文件2.4 安装Zabbix2.5 配置Zabbix2.5.1 创建zabbix数据库2.5.2 导入Z原创 2022-03-18 09:58:22 · 335 阅读 · 0 评论 -
大数据之Presto
大数据之Presto文章目录大数据之Presto第1章 Presto1.1 Presto简介1.1.1 Presto概念1.1.2 Presto架构1.1.3 Presto优缺点1.1.4 Presto、Impala性能比较1.2 Presto安装1.2.1 Presto Server安装1.2.2 Presto命令行Client安装1.2.3 Presto可视化Client安装1.3 Presto优化之数据存储1.3.1 合理设置分区1.3.2 使用列式存储1.3.3 使用压缩1.4 Presto优化之原创 2022-03-18 09:13:50 · 411 阅读 · 0 评论 -
大数据之Superset
大数据之Superset文章目录大数据之Superset第1章 Superset入门1.1 Superset概述1.2 环境说明第2章 Superset安装2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署2.2.1 安装依赖2.2.2 安装Superset2.2.3 启动Supterset2.2.4 superset启停脚本第3章 Superset使用3.1准备MySQL数据源3.2 对接MySQL数据源3.2.1 安装依赖原创 2022-03-17 09:05:13 · 5258 阅读 · 0 评论 -
大数据技术之DolphinScheduler
文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 DolphinScheduler集群模式部署**3.1** 集群规划3.2 前置准备工作3.3 解压DolphinS原创 2022-03-16 15:03:04 · 19671 阅读 · 4 评论 -
大数据之DataX
第1章 DataX简介1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 源码地址:https://github.com/alibaba/DataX1.2 DataX支持的数据源DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图。类原创 2022-03-16 10:17:27 · 3888 阅读 · 0 评论 -
大数据之MaxWell
第1章 Maxwell简介1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。 官网地址:http://maxwells-daemon.io/1.2 Maxwell输出数据格式注:Maxwell输出的json字段说明:字段解释da原创 2022-03-16 09:42:20 · 5139 阅读 · 0 评论 -
Hadoop阶段学习总结
Hadoop阶段学习总结第一部分:HDFS相关问题一、描述一下HDFS的数据写入流程 首先由客户端想NameNode服务发起写数据请求,NameNode接收到请求后会进行基本验证,验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后,NameNode会响应客户端允许上传。接下来客户端会对文件按照blocksize大小进行切块,切完块后依次以块为单位进行上传。此时客户端会请求上传第一个块信息,服务端接收到上传请求后会依据HDFS默认的机架感知原理默认情况下返回三台原创 2022-03-07 11:36:23 · 1160 阅读 · 0 评论