![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据系列
文章平均质量分 95
潘小磊
功不唐捐,玉汝于成
展开
-
主数据深度剖析与实际应用
主数据是指在企业或组织中被广泛共享和重复使用的重要核心数据。它通常包括关键的业务实体和概念,如客户、产品、供应商、员工和账户等,这些数据在各种业务流程、系统和应用程序中被反复引用和使用。主数据的质量和一致性对于企业的业务运营和决策至关重要。主数据管理是一套综合的方法、工具和流程,用于确保企业核心业务实体数据(如客户、产品、员工等)的准确性、一致性、完整性、及时性和可用性。它涉及数据治理、质量控制、数据集成和数据分发等多个方面,旨在创建和维护企业范围内的单一事实来源。原创 2024-07-08 14:20:24 · 1070 阅读 · 0 评论 -
大数据再出发-23ClickHouse监控及备份
ClickHouse 运行时会将一些个自身的运行状态记录到众多系统表中( system.*)。所以我们对于 CH 自身的一些运行指标的监控数据,也主要来自这些系统表。原创 2022-06-16 09:49:06 · 332 阅读 · 0 评论 -
大数据再出发-22ClickHouse 高级
昨天学习了clickhouse入门相关的知识,今天来进阶学习一下ck的高级知识点在 clickhouse 20.6 版本之前要查看 SQL 语句的执行计划需要设置日志级别为 trace 才能可以看到,并且只能真正执行 sql,在执行日志里面查看。在 20.6 版本引入了原生的执行计划的语法。在 20.6.3 版本成为正式版本的功能。...原创 2022-06-15 11:20:54 · 345 阅读 · 0 评论 -
大数据再出发-21ClickHouse
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告以下面的表为例:1)采用行式存储时,数据在磁盘上的组织结构为:好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当想查所有人的年龄时,需要不停的查找,或者全表扫描才行,遍历的很多数据都是不需要的。2)采用列式存储时,数据在磁盘上的组织结构为:这时想查所有人的年龄只需把年龄那一列原创 2022-06-13 13:33:13 · 610 阅读 · 0 评论 -
大数据再出发-20Table API 和 Flink SQL
Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如select、filter和join)。而对于Flink SQL,就是直接可以在代码中写SQL,来实现一些查询(Query)操作。Flink的SQL支持,基于实现了SQL标准的Apache Calcite(Apache开源SQL解析工具)原创 2022-06-08 11:15:23 · 372 阅读 · 0 评论 -
大数据再出发-19Flink
今天来一起学习一下flink,一个真正意义上的流处理框架,之前学的sparkstreaming那是个微批处理的框架,今天学的flink是基于事件的实时处理框架。原创 2022-06-07 10:14:15 · 589 阅读 · 0 评论 -
大数据再出发-18Spark性能调优
spark的性能调优是spark学习、使用过程中非常重要的一项,如何使自己spark应用跑的又快又稳,使服务器达到资源最大化的利用都离不开性能调优,好了废号不多说让我们一起来看看他到底讲的什么东西。原创 2022-06-02 10:53:21 · 74 阅读 · 0 评论 -
大数据再出发-17Spark内核
此文章为尚硅谷老师海哥讲的spark内核笔记,特此记录学习一下1)spark-3.0.0-bin-hadoop3.2\bin\spark-submit.cmd=> cmd /V /E /C “”%~dp0spark-submit2.cmd" %"2)spark-submit2.cmd=> set CLASS=org.apache.spark.deploy.SparkSubmit“%~dp0spark-class2.cmd” %CLASS% %3)spark-class2.cmd=> %SP原创 2022-06-01 13:42:19 · 439 阅读 · 0 评论 -
大数据再出发-16SparkStreaming
大数据再出发-16SparkStreaming今天来学习一下spark中非常重要的实时模块SparkStreaming文章目录大数据再出发-16SparkStreaming一、SparkStreaming概述1.1 Spark Streaming是什么1.2 Spark Streaming架构原理1.2.1 什么是DStream1.2.2 架构图1.2.3 背压机制1.3 Spark Streaming特点二、DStream入门2.1 WordCount案例实操2.2 WordCount解析三、DStr原创 2022-05-31 10:22:57 · 73 阅读 · 0 评论 -
大数据再出发-15Spark Sql
大数据再出发-15SparkSql文章目录大数据再出发-15SparkSql一、Spark SQL概述1.1 什么是Spark SQL1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1.3.2 什么是DataSet1.3.3 RDD、DataFrame和DataSet之间关系1.4 Spark SQL的特点二、Spark SQL编程2.1 SparkSession新的起始点2.2 DataFrame(相当于对RDD封装了表格)2.2.1 创建DataF原创 2022-05-30 15:15:32 · 175 阅读 · 0 评论 -
大数据再出发-14sparkcore
大数据再出发-14sparkcore文章目录大数据再出发-14sparkcore一、RDD概述1.1 什么是RDD1.1.1 RDD类比工厂生产1.1.2 WordCount工作流程(延迟计算也叫懒加载)1.2 RDD五大特性二、RDD编程2.1 RDD的创建2.1.1 IDEA环境准备2.1.3 从外部存储系统的数据集创建2.1.4 从其他RDD创建2.1.5 创建IDEA快捷键2.2 分区规则2.2.1 默认分区源码(RDD数据从集合中创建)2.2.2 分区源码(RDD数据从集合中创建)2.2.3 默原创 2022-05-30 11:26:19 · 53 阅读 · 0 评论 -
大数据再出发-13Spark入门
大数据再出发- 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录大数据再出发-前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面原创 2022-05-25 11:05:16 · 212 阅读 · 0 评论 -
大数据再出发-12sqoop
大数据再出发-12sqoop文章目录大数据再出发-12sqoop一、Sqoop简介二、Sqoop原理三、Sqoop安装3.1 下载并解压四、Sqoop的简单使用案例4.1 导入数据4.1.1 RDBMS到HDFS4.1.2 RDBMS到Hive4.1.3 RDBMS到Hbase4.2、导出数据4.2.1 HIVE/HDFS到RDBMS4.3 脚本打包五、Sqoop一些常用命令及参数5.1 常用命令列举5.2 命令&参数详解5.2.1 公用参数:数据库连接5.2.2 公用参数:import5.2.3原创 2022-05-24 11:10:12 · 92 阅读 · 0 评论 -
大数据再出发-11Flume
大数据再出发-11Flume今天我们一起来复习一下大数据中非常重要的采集工具Flume。文章目录大数据再出发-11Flume一、Flume概述1.1 Flume定义1.2 Flume基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event二、Flume入门2.1 Flume安装部署2.1.1 安装地址2.1.2 安装部署2.2 Flume入门案例2.2.1 监控端口数据官方案例2.2.3 实时监控目录下多个新文件2.2.4 实时监控目录下原创 2022-05-24 09:51:35 · 57 阅读 · 0 评论 -
大数据再出发-10Kafka
大数据在出发-10Kafka文章目录大数据在出发-10Kafka一、Kafka概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka基础架构二、Kafka快速入门2.1 安装部署2.1.1 集群规划2.1.2 Kafka 下载2.1.3 集群部署2.2 Kafka命令行操作三、Kafka架构深入3.1 Kafka工作流程及文件存储机制3.2 Kafka生产者3.2.1 分区策略3.2.2 数据可靠性保证3.3 Kafka消费者3.3.1 消费方式原创 2022-05-23 16:58:06 · 99 阅读 · 0 评论 -
大数据再出发-09Zookeeper
大数据再出发-09Zookeeper文章目录大数据再出发-09Zookeeper一、Zookeeper入门二、使用步骤1.引入库2.读入数据总结一、Zookeeper入门mPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswar原创 2022-05-23 10:15:23 · 90 阅读 · 0 评论 -
大数据再出发-08Hbase
大数据再出发-08Hbase上一边文章学习了Hive,今天来学习一下Hbase,Hbase是一种分布式的列式数据库,十分适合字段经常变更的场景。比如用户画像文章目录大数据再出发-08Hbase一、HBase简介1.1 HBase定义1.2 HBase数据模型1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3 数据模型1.3 HBase基本架构二、HBase快速入门2.1 HBase安装部署2.1.1 Zookeeper正常部署2.1.2 Hadoop正常部署2.1.3 HBas原创 2022-05-20 10:21:17 · 94 阅读 · 0 评论 -
大数据再出发-07Hive
大数据再出发-07Hive前面篇文章写了有关Hadoop的相关知识,但是要想将这个系统用起来还要写maoreduce程序,开发太麻烦了,所以今天来学一下Hive,hive支持sql语法,大家可以通过编写简单的sql语句来实现大数据量的分布式计算。文章目录大数据再出发-07Hive一、Hive基本概念1.1 什么是Hive1.2Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和 数据库比较1.4.1 查询语言1.4.2 数据更新1.4.3 执行延迟1.4.4 数据原创 2022-05-19 16:28:53 · 330 阅读 · 0 评论 -
大数据再出发-06Hadoop(优化&特性&HA)
大数据再出发-06Hadoop(优化&特性&HA)文章目录大数据再出发-06Hadoop(优化&特性&HA)一、Hadoop数据压缩1.1 概述1.2 MR支持的压缩编码1.3 压缩方式选择1.3.1 Gzip压缩1.3.2 Bzip2压缩1.3.3 Lzo压缩1.3.4 Snappy压缩1.4 压缩位置选择1.5 压缩参数配置二、Hadoop企业优化2.1 MapReduce 跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.原创 2022-05-18 11:11:09 · 407 阅读 · 0 评论 -
大数据再出发-05Hadoop(MapReduce&Yarn)
大数据再出发-05Hadoop(MapReduce&Yarn)这是大数据再出发系列的第5篇文章今天来学习一下Hadoop生态中最重要的MapReduce计算框架和Yarn任务调度框架文章目录大数据再出发-05Hadoop(MapReduce&Yarn)一、MapReduce概述二、使用步骤1.引入库2.读入数据总结一、MapReduce概述示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):i原创 2022-05-17 13:57:28 · 136 阅读 · 0 评论 -
大数据再出发-04Hadoop(HDFS)
大数据再出发-04Hadoop(HDFS) 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录大数据再出发-04Hadoop(HDFS)前言一、HDFS概述二、使用步骤1.引入库2.读入数据总结前言提示:本文为系列文章第四篇,之前没看的同学可以去往期文章看一下:上一篇介绍了Hadoop的入门操作,今天我们来学习一下Hadoop生态中非常重要的HD原创 2022-05-16 10:47:33 · 141 阅读 · 0 评论 -
大数据再出发-03hadoop入门
大数据再出发的第三篇文章,主要记录了hadoop相关内容并搭建了分布式的集群,编写了一些常用脚本原创 2022-05-13 10:27:10 · 275 阅读 · 0 评论 -
大数据再出发-02虚拟机环境准备
这篇文章主要做了虚拟机的网络配置、修改主机名及映射、安装工具,最后创建了三台虚拟机用于后续的集群搭建原创 2022-05-12 14:19:06 · 412 阅读 · 0 评论 -
大数据再出发-01centos7虚拟机安装
基于VMware的centos7详细安装教程原创 2022-05-12 11:26:07 · 308 阅读 · 0 评论 -
免费flume-ng-sql-source-1.5.3-SNAPSHOT.jar
免费flume-ng-sql-source-1.5.3-SNAPSHOT.jar网上大多编译好的都收费,没钱只好自己下载源码编译一个了,亲测有效。flume-mysql-kafka,下面是结果图,在mysql上手动添加数据后,kafka就会消费一条数据。链接:网盘地址提取码:sx6j复制这段内容后打开百度网盘手机App,操作更方便哦...原创 2020-08-19 15:19:32 · 946 阅读 · 0 评论 -
从头学习大数据之Linux入门
大数据学习之Linux入门@ 潘小磊一、 Linux目录结构1.1 概览1.2 树状目录结构目录名功能/bin是Binary的缩写,这个目录存放着系统必备执行命令/boot这里存放的是启动Linux时使用的一些核心文件,包括一些链接文件以及镜像文件,自己的安装别放这里/devDevice(设备)的缩写,该目录下存放的是Linux的外部设备,在Lin...原创 2018-12-03 21:48:58 · 262 阅读 · 0 评论 -
linux 常用基本命令
七 常用基本命令7.1 帮助命令7.1.1 man 获得帮助信息1)基本语法:man manual[命令或配置文件] 获得帮助信息(1)显示说明NAME 命令的名称和单行描述SYNOPSIS 怎样使用命令DESCRIPTION 命令功能的深入讨论EXAMPLES 怎样使用命令的例子SEE ALSO 相关主题(通常是手册页)内容比较多,回车键或j或向下键(一行行的往下翻)、向...原创 2018-12-12 19:08:01 · 439 阅读 · 0 评论 -
从头学习大数据
一 、Linux入门概述1.1 概述Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了U...原创 2018-12-02 22:01:04 · 322 阅读 · 0 评论