自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Hive内核调优(三)

了解业务需求后,考虑使用直接编写MR实现,MAP的输入为用户信息表USER及所有指标表的目录下的文件,MAP输出为用户ID、指标值,REDUCE输入为用户ID、指标值序列,REDUCE输出为用户ID和按顺序排列的指标值,落地成结果文件。如下场景,需要将用户信息表USER与INDICT_1、INDICT_2、INDICT_3、INDICT_4、INDICT_5等一定数量的指标表进行关联,目标是汇总用户的所有指标到一个新的用户指标表,一方面SQL比较冗长,另一方面由于多次join性能较低。

2023-12-30 04:01:58 1072

原创 Hive内核调优(二)

SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。

2023-12-26 22:13:16 1105

原创 Hive内核调优(一)

注:CPU时间:表示运行程序所占用服务器CPU资源的时间。用户等待耗时:记录的是用户从提交作业到返回结果期间用户等待的所有时间。

2023-12-26 22:04:19 1173

原创 Mac M1及以上芯片在Ubuntu上使用conda安装JupyterLab

完成以上步骤后,您将拥有一个完整的JupyterLab环境,其中包括Python库、拼写检查器扩展以及Octave和C++内核。然后,浏览器将自动打开一个新选项卡,显示JupyterLab界面。在这里,您可以创建和编辑Jupyter笔记本,运行Python、Octave和C++代码等。

2023-04-07 02:44:06 615 3

原创 Ubuntu配置Python环境

现在,您已经在~/.bash_profile文件中配置了Python环境。这将确保Python和pip在您的用户会话中全局可用。请注意,这意味着您将在系统级别安装和管理Python库,这可能会导致依赖关系冲突。虚拟环境仍然是解决此问题的最佳方法。的路径(这是Python和pip通常位于的地方),那么它们应该已经在PATH中。例如,如果Python和pip的路径分别是。

2023-04-07 02:38:30 6403 3

原创 Mac 上配置 Scala 语言开发环境

Scala 是一种基于 Java 平台的语言,所以需要先安装 JDK(Java Development Kit)。可以在 Oracle 官网上下载和安装 JDK,也可以使用 Homebrew 安装 JDK。

2023-04-06 05:20:57 1086

原创 Mac 上配置 C 语言开发环境

Xcode 是 Mac 上的集成开发环境(IDE),可以用来进行 C 语言开发。它可以在 Mac App Store 上下载和安装,或者从 Apple 开发者网站下载。在安装 Xcode 时,需要同时安装 Command Line Tools,这个工具集包含了一些常用的命令行工具,包括 GCC 编译器等。

2023-04-06 05:14:22 3704

原创 Mac 上常见的环境配置文件

当使用命令行终端进行开发时,环境配置文件可以用来自动化执行一些命令或设置环境变量,以提高工作效率和方便使用。

2023-04-06 05:12:59 2444

原创 Mac 通过下载Homebrew配置安装Python环境

(curl。

2023-04-06 05:05:12 1818

原创 Mac 通过下载软件包配置安装Python环境

如果系统已经安装了 Python,则会显示 Python 的版本信息。如果未安装 Python,则需要下载并安装。

2023-04-06 05:01:17 584

原创 Mac 上配置 JDK 1.8 的详细流程

如果系统已经安装了 JDK,则会显示 JDK 的版本信息。如果未安装 JDK,则需要下载并安装。是 JDK 1.8 的安装路径,需要根据实际安装路径进行修改。如果输出 JDK 1.8 的版本信息,则说明 JDK 配置成功。可以从 Oracle 官网下载 JDK 1.8 的安装包,至此,JDK 1.8 的配置就完成了。打开下载的安装包,按照提示进行安装。

2023-04-06 04:50:32 7154

原创 SQL概念和使用

本文介绍了 SQL 数据库的基本概念、结构以及 Mac 上的安装和客户端链接方法。此外,还介绍了 SQL 的增删改查操作、常用函数和管理员用户。掌握这些 SQL 的知识点可以帮助开发人员更好地管理和操作数据库。

2023-04-06 04:39:31 359

原创 SQL 基础知识以及安装

以上就是本 SQL 开发文档的全部内容。如果您有任何问题或建议,请随时联系我们。

2023-04-06 04:03:26 181

原创 Apache ZooKeeper

Apache Zookeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance) 等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。

2023-04-05 20:22:06 467

原创 Hive 调优指南

Apache Hive 是一个基于 Hadoop 的数据仓库解决方案,用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率,本文将介绍一些 Hive 调优的策略和方法。

2023-04-05 19:45:22 632

原创 HiveSQL 练习题及答案

以下是一些 HiveSQL 练习题目,包括创建表、插入数据、查询数据等操作。这些题目将帮助您巩固 HiveSQL 的知识。

2023-04-05 19:27:06 578

原创 Hive部署 及 HiveSQL 概念与使用

Hive 允许用户创建自定义函数以满足特定需求。要创建一个 UDF,需要编写一个 Java 类并实现 org.apache.hadoop.hive.ql.exec.UDF 接口,然后使用 CREATE FUNCTION 语句将其注册到 Hive 中。本文介绍了如何在三台服务器上部署 Apache Hive,以及 HiveSQL 的概念和使用方法。通过部署 Hive 和使用 HiveSQL,您可以更轻松地查询和分析存储在Hadoop 上的结构化数据。

2023-04-05 19:16:31 232

原创 Apache Hive:概念与组成

Apache Hive 是一个基于 Hadoop 的数据仓库工具,适用于处理和分析大量结构化数据。Hive 提供了类 SQL 查询语言(HiveQL),便于用户查询和分析数据。然而,Hive 存在一些局限性,如查询性能较慢、不支持实时数据处理等。针对这些局限性,可以选择其他大数据工具,如 Presto、Impala 或 Apache Spark。

2023-04-05 19:03:06 378

原创 Mac安装Jupyter

如果您还没有安装Homebrew,请访问官方网站()获取安装命令。$(curl。

2023-04-05 18:48:51 3009

原创 大数据之Zabbix

大数据之Zabbix文章目录大数据之Zabbix第1章 Zabbix入门1.1 Zabbix概述1.2 Zabbix 基础架构第2章 Zabbix部署2.1 集群规划2.2 准备工作2.2.1 关闭集群2.2.2 关闭防火墙(3台节点,已关闭)2.2.3 关闭SELinux(hadoop102)2.3 配置Zabbix yum源(3台节点)2.3.1 安装yum仓库2.3.2 修改zabbix仓库配置文件2.4 安装Zabbix2.5 配置Zabbix2.5.1 创建zabbix数据库2.5.2 导入Z

2022-03-18 09:58:22 901

原创 大数据之Presto

大数据之Presto文章目录大数据之Presto第1章 Presto1.1 Presto简介1.1.1 Presto概念1.1.2 Presto架构1.1.3 Presto优缺点1.1.4 Presto、Impala性能比较1.2 Presto安装1.2.1 Presto Server安装1.2.2 Presto命令行Client安装1.2.3 Presto可视化Client安装1.3 Presto优化之数据存储1.3.1 合理设置分区1.3.2 使用列式存储1.3.3 使用压缩1.4 Presto优化之

2022-03-18 09:13:50 661

原创 大数据之Superset

大数据之Superset文章目录大数据之Superset第1章 Superset入门1.1 Superset概述1.2 环境说明第2章 Superset安装2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署2.2.1 安装依赖2.2.2 安装Superset2.2.3 启动Supterset2.2.4 superset启停脚本第3章 Superset使用3.1准备MySQL数据源3.2 对接MySQL数据源3.2.1 安装依赖

2022-03-17 09:05:13 5343

原创 大数据技术之DolphinScheduler

文章目录大数据技术之DolphinScheduler第1章 DolphinScheduler简介1.1 DolphinScheduler概述1.2 DolphinScheduler核心架构第2章 DolphinScheduler部署说明2.1 软硬件环境要求2.1.1 操作系统版本要求2.1.2 服务器硬件要求2.2 部署模2.2.1 单机模式2.2.2 伪集群模式2.2.3 集群模式第3章 DolphinScheduler集群模式部署**3.1** 集群规划3.2 前置准备工作3.3 解压DolphinS

2022-03-16 15:03:04 20733 5

原创 大数据之DataX

第1章 DataX简介1.1 DataX概述​ DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。​ 源码地址:https://github.com/alibaba/DataX1.2 DataX支持的数据源DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图。类

2022-03-16 10:17:27 4052

原创 大数据之MaxWell

第1章 Maxwell简介1.1 Maxwell概述​ Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。​ 官网地址:http://maxwells-daemon.io/1.2 Maxwell输出数据格式注:Maxwell输出的json字段说明:字段解释da

2022-03-16 09:42:20 5538

原创 Hadoop阶段学习总结

Hadoop阶段学习总结第一部分:HDFS相关问题一、描述一下HDFS的数据写入流程​ 首先由客户端想NameNode服务发起写数据请求,NameNode接收到请求后会进行基本验证,验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后,NameNode会响应客户端允许上传。接下来客户端会对文件按照blocksize大小进行切块,切完块后依次以块为单位进行上传。此时客户端会请求上传第一个块信息,服务端接收到上传请求后会依据HDFS默认的机架感知原理默认情况下返回三台

2022-03-07 11:36:23 1176

原创 LeetCode数据库题目1-123

LeetCode数据库题目1-123175. 组合两个表难度简单SQL架构表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Addr

2022-03-07 11:30:33 15211

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除