泽泽野-CSDN博客

原创 Hive内核调优(三)

了解业务需求后，考虑使用直接编写MR实现，MAP的输入为用户信息表USER及所有指标表的目录下的文件，MAP输出为用户ID、指标值，REDUCE输入为用户ID、指标值序列，REDUCE输出为用户ID和按顺序排列的指标值，落地成结果文件。如下场景，需要将用户信息表USER与INDICT_1、INDICT_2、INDICT_3、INDICT_4、INDICT_5等一定数量的指标表进行关联，目标是汇总用户的所有指标到一个新的用户指标表，一方面SQL比较冗长，另一方面由于多次join性能较低。

2023-12-30 04:01:58 1266

原创 Hive内核调优(二)

SQL调优过程中需要结合Hive日志分析性能瓶颈，如下是对关键日志进行说明。

2023-12-26 22:13:16 1509

原创 Hive内核调优（一）

注：CPU时间：表示运行程序所占用服务器CPU资源的时间。用户等待耗时：记录的是用户从提交作业到返回结果期间用户等待的所有时间。

2023-12-26 22:04:19 1455

原创 Mac M1及以上芯片在Ubuntu上使用conda安装JupyterLab

完成以上步骤后，您将拥有一个完整的JupyterLab环境，其中包括Python库、拼写检查器扩展以及Octave和C++内核。然后，浏览器将自动打开一个新选项卡，显示JupyterLab界面。在这里，您可以创建和编辑Jupyter笔记本，运行Python、Octave和C++代码等。

2023-04-07 02:44:06 840 3

原创 Ubuntu配置Python环境

现在，您已经在~/.bash_profile文件中配置了Python环境。这将确保Python和pip在您的用户会话中全局可用。请注意，这意味着您将在系统级别安装和管理Python库，这可能会导致依赖关系冲突。虚拟环境仍然是解决此问题的最佳方法。的路径（这是Python和pip通常位于的地方），那么它们应该已经在PATH中。例如，如果Python和pip的路径分别是。

2023-04-07 02:38:30 9703 3

原创 Mac 上配置 Scala 语言开发环境

Scala 是一种基于 Java 平台的语言，所以需要先安装 JDK（Java Development Kit）。可以在 Oracle 官网上下载和安装 JDK，也可以使用 Homebrew 安装 JDK。

2023-04-06 05:20:57 1305

原创 Mac 上配置 C 语言开发环境

Xcode 是 Mac 上的集成开发环境（IDE），可以用来进行 C 语言开发。它可以在 Mac App Store 上下载和安装，或者从 Apple 开发者网站下载。在安装 Xcode 时，需要同时安装 Command Line Tools，这个工具集包含了一些常用的命令行工具，包括 GCC 编译器等。

2023-04-06 05:14:22 5939

原创 Mac 上常见的环境配置文件

当使用命令行终端进行开发时，环境配置文件可以用来自动化执行一些命令或设置环境变量，以提高工作效率和方便使用。

2023-04-06 05:12:59 3429

原创 Mac 通过下载Homebrew配置安装Python环境

(curl。

2023-04-06 05:05:12 4130

原创 Mac 通过下载软件包配置安装Python环境

如果系统已经安装了 Python，则会显示 Python 的版本信息。如果未安装 Python，则需要下载并安装。

2023-04-06 05:01:17 879

原创 Mac 上配置 JDK 1.8 的详细流程

如果系统已经安装了 JDK，则会显示 JDK 的版本信息。如果未安装 JDK，则需要下载并安装。是 JDK 1.8 的安装路径，需要根据实际安装路径进行修改。如果输出 JDK 1.8 的版本信息，则说明 JDK 配置成功。可以从 Oracle 官网下载 JDK 1.8 的安装包，至此，JDK 1.8 的配置就完成了。打开下载的安装包，按照提示进行安装。

2023-04-06 04:50:32 12623

原创 SQL概念和使用

本文介绍了 SQL 数据库的基本概念、结构以及 Mac 上的安装和客户端链接方法。此外，还介绍了 SQL 的增删改查操作、常用函数和管理员用户。掌握这些 SQL 的知识点可以帮助开发人员更好地管理和操作数据库。

2023-04-06 04:39:31 458

原创 SQL 基础知识以及安装

以上就是本 SQL 开发文档的全部内容。如果您有任何问题或建议，请随时联系我们。

2023-04-06 04:03:26 273

原创 Apache ZooKeeper

Apache Zookeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。

2023-04-05 20:22:06 552

原创 Hive 调优指南

Apache Hive 是一个基于 Hadoop 的数据仓库解决方案，用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率，本文将介绍一些 Hive 调优的策略和方法。

2023-04-05 19:45:22 858

原创 HiveSQL 练习题及答案

以下是一些 HiveSQL 练习题目，包括创建表、插入数据、查询数据等操作。这些题目将帮助您巩固 HiveSQL 的知识。

2023-04-05 19:27:06 728

原创 Hive部署及 HiveSQL 概念与使用

Hive 允许用户创建自定义函数以满足特定需求。要创建一个 UDF，需要编写一个 Java 类并实现 org.apache.hadoop.hive.ql.exec.UDF 接口，然后使用 CREATE FUNCTION 语句将其注册到 Hive 中。本文介绍了如何在三台服务器上部署 Apache Hive，以及 HiveSQL 的概念和使用方法。通过部署 Hive 和使用 HiveSQL，您可以更轻松地查询和分析存储在Hadoop 上的结构化数据。

2023-04-05 19:16:31 396

原创 Apache Hive：概念与组成

Apache Hive 是一个基于 Hadoop 的数据仓库工具，适用于处理和分析大量结构化数据。Hive 提供了类 SQL 查询语言（HiveQL），便于用户查询和分析数据。然而，Hive 存在一些局限性，如查询性能较慢、不支持实时数据处理等。针对这些局限性，可以选择其他大数据工具，如 Presto、Impala 或 Apache Spark。

2023-04-05 19:03:06 474

原创 Mac安装Jupyter

如果您还没有安装Homebrew，请访问官方网站（）获取安装命令。$(curl。

2023-04-05 18:48:51 7177

原创大数据之Zabbix

大数据之Zabbix文章目录大数据之Zabbix第1章 Zabbix入门1.1 Zabbix概述1.2 Zabbix 基础架构第2章 Zabbix部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙（3台节点，已关闭）2.2.3 关闭SELinux（hadoop102）2.3 配置Zabbix yum源（3台节点）2.3.1 安装yum仓库2.3.2 修改zabbix仓库配置文件2.4 安装Zabbix2.5 配置Zabbix2.5.1 创建zabbix数据库2.5.2 导入Z

2022-03-18 09:58:22 1048

原创大数据之Presto

大数据之Presto文章目录大数据之Presto第1章 Presto1.1 Presto简介1.1.1 Presto概念1.1.2 Presto架构1.1.3 Presto优缺点1.1.4 Presto、Impala性能比较1.2 Presto安装1.2.1 Presto Server安装1.2.2 Presto命令行Client安装1.2.3 Presto可视化Client安装1.3 Presto优化之数据存储1.3.1 合理设置分区1.3.2 使用列式存储1.3.3 使用压缩1.4 Presto优化之

2022-03-18 09:13:50 779

原创大数据之Superset

大数据之Superset文章目录大数据之Superset第1章 Superset入门1.1 Superset概述1.2 环境说明第2章 Superset安装2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署2.2.1 安装依赖2.2.2 安装Superset2.2.3 启动Supterset2.2.4 superset启停脚本第3章 Superset使用3.1准备MySQL数据源3.2 对接MySQL数据源3.2.1 安装依赖

2022-03-17 09:05:13 5745

原创大数据技术之DolphinScheduler

文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 DolphinScheduler集群模式部署**3.1** 集群规划3.2 前置准备工作3.3 解压DolphinS

2022-03-16 15:03:04 21224 5

weixin_47884711的博客