大数据Hadoop
文章平均质量分 69
大数据Hadoop
知行合一。。。
这个作者很懒,什么都没留下…
展开
-
Hive--13---企业级调优1---Explain、合理设置 Map及 Reduce数
1原创 2022-07-02 11:25:01 · 212 阅读 · 1 评论 -
Hive--14---企业级调优2----表的优化
1原创 2022-06-29 22:16:23 · 262 阅读 · 0 评论 -
Hive--12---文件存储格式
1原创 2022-06-25 22:05:43 · 319 阅读 · 0 评论 -
Hive--11---函数-----split() 、lateral view 、explode() 、posexplode()
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录lateral view 、explodelateral view 、explodehttps://blog.csdn.net/weixin_43230682/article/details/108096441https://blog.csdn.net/xuehuagongzi000/article/details/121497949https://blog.csdn.net/qq_41489540/article/de.原创 2022-05-08 14:03:17 · 1754 阅读 · 0 评论 -
Hive--10---函数----自定义函数 (UDF-UDAF-UDTF)
`原创 2022-06-25 16:48:03 · 311 阅读 · 0 评论 -
Hive--09---函数----窗口函数
1原创 2022-06-25 16:46:56 · 241 阅读 · 0 评论 -
Hive--08---函数----常用函数2
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言前言https://blog.csdn.net/weixin_43230682/article/details/108095794原创 2022-05-08 23:33:42 · 196 阅读 · 0 评论 -
Hive--07---函数----简介、常用函数1
1原创 2022-06-25 11:38:13 · 89 阅读 · 0 评论 -
Hive--06---分区表、分桶表
1原创 2022-06-20 23:13:52 · 135 阅读 · 0 评论 -
Hive--05---DML----查询基本语法
1原创 2022-06-19 11:32:48 · 127 阅读 · 0 评论 -
Hive--04---DML----数据导入、数据导出
1原创 2022-06-19 00:50:07 · 79 阅读 · 0 评论 -
Hive--03---DDL数据定义
1原创 2022-06-16 22:31:26 · 186 阅读 · 0 评论 -
Hive--02---Hive数据类型
1原创 2022-06-12 20:23:59 · 110 阅读 · 0 评论 -
Hive--01---基本概念
1原创 2022-06-11 22:29:02 · 153 阅读 · 1 评论 -
HBase--02---HBase进阶
1原创 2022-06-08 23:30:15 · 85 阅读 · 0 评论 -
HBase--01---HBase简介
这里写自定义目录标题HBase简介1.1 HBase 定义HBase 是一种分布式、可扩展、支持海量数据存储的==NoSQL 数据库==。1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构HBase简介1.1 HBase 定义HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL 数据库。1.2 HBase 数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase 的底层物理存储结构(K-原创 2022-05-17 23:17:41 · 219 阅读 · 0 评论 -
Hadoop--11----Yarn_02----调度器和算法
YARN原创 2022-06-04 23:31:31 · 106 阅读 · 1 评论 -
Hadoop--12----Hadoop序列化
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Hadoop序列化1.序列化概述2. 自定义 bean对象实现序列化接口(Writable)具体实现 bean对象序列化 步骤如下 7步序列化案例实操1)需求2)需求分析3)编写流量统计的Bean 对象4)编写 Mapper类5)编写 Reducer类6)编写 Driver驱动类7)测试需求输入数据**输出结果**Hadoop序列化1.序列化概述2. 自定义 bean对象实现序列化接口(Writable)具体实.原创 2022-05-28 20:02:39 · 149 阅读 · 0 评论 -
Hadoop--10----Yarn_01----概述
`原创 2022-06-04 19:05:00 · 85 阅读 · 0 评论 -
Hadoop--09---MapReduce_04----MapReduce工作流程、Shuffle 机制、Partition 分区
map原创 2022-06-04 15:27:37 · 108 阅读 · 0 评论 -
Hadoop--08---MapReduce_03----切片原理
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录MapReduce框架原理1. 切片 与 MapTask并行度决定机制MapReduce框架原理1. 切片 与 MapTask并行度决定机制原创 2022-06-02 22:28:39 · 150 阅读 · 0 评论 -
Hadoop--07---MapReduce_02----WordCount 案例实操
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录WordCount 案例实操WordCount 案例实操原创 2022-05-25 20:51:50 · 91 阅读 · 0 评论 -
Hadoop--06---MapReduce_01----概述
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录MapReduce概述1. MapReduce 定义MapReduce是一个 ==分布式计算==的编程框架2. MapReduce 优缺点优点:缺点:3. MapReduce 核心思想分布式的运算程序往往需要分成至少2 个阶段1.MapTask2.ReduceTask4. MapReduce 进程WordCount1. 官方WordCount 源码2. 常用数据序列化类型3. MapReduce 编程规范用户编写的程序分成三个部.原创 2022-05-22 23:18:16 · 128 阅读 · 0 评论 -
Hadoop--05---HDFS_03----NameNode 和2NN 、DataNode
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录NameNode 和SecondaryNameNode1. NN 和2NN 工作机制思考:NameNode 中的元数据是存储在哪里的?1)第一阶段:NameNode 启动2)第二阶段:Secondary NameNode 工作2. Fsimage 和Edits 解析3. CheckPoint 时间设置DataNode1. DataNode 工作机制2. 数据完整性校验算法crc(32)3. 掉线时限参数设置NameNode 和.原创 2022-05-22 16:01:09 · 215 阅读 · 0 评论 -
Hadoop--04---HDFS_02----读写流程
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录HDFS 写数据1. 写数据流程流程2. 网络拓扑-节点距离计算3. 机架感知(副本存储节点选择)HDFS 读数据流程HDFS 写数据1. 写数据流程流程(1)客户端通过Distributed FileSystem 模块向NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端请求第一个 Block 上传到哪几个DataNode .原创 2022-05-22 11:07:23 · 102 阅读 · 0 评论 -
Hadoop--03---HDFS_01----概述
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录HDFS 概述1. HDFS 产出背景及定义HDFS(Hadoop Distributed File System),==分布式文件系统==HDFS 概述1. HDFS 产出背景及定义HDFS(Hadoop Distributed File System),分布式文件系统...原创 2022-05-18 21:09:32 · 240 阅读 · 0 评论 -
Hadoop--02---HDFS、YARN、MapReduce 概述
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录HDFS、YARN、MapReduce 概述1.HDFS架构概述Hadoop Distributed File System,简称HDFS,是一个==分布式文件系统==。2.YARN 架构概述Yet Another Resource Negotiator 简称YARN ,另一种资源协调者,是Hadoop 的==资源管理器==。3.MapReduce 架构概述MapReduce 将计算过程分为两个阶段:Map 和Reduce1)Ma.原创 2022-05-15 20:01:02 · 250 阅读 · 0 评论 -
Hadoop--01---大数据概论、Hadoop 概述
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录大数据概论1.大数据概念2.大数据特点3.大数据应用场景4.大数据部门间业务流程分析5.大数据部门内组织结构Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 发展历史(了解)1.3 Hadoop 三大发行版本(了解)1.4 ==Hadoop 优势==(4 高)1.5 Hadoop 组成(面试重点)在Hadoop2.x时代,增加了Yarn。==Yarn只负责资源的调度==,大数据概论1.大数据概念2.大.原创 2022-05-15 16:01:38 · 248 阅读 · 0 评论 -
大数据 -- 06-- Flink
FlinkFlink简介Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。先来看一下Flink与同类产品的对比.Flink详解Flink的组成JobManager:协调分布式执行。他们安排任务,协调检查点,协调故障恢复等。总是至少有一个工作经理。高可用性设置将有多个JobManager,其中一个始终是领导者,而其他则是待机者。TaskManagers:执行任务(或原创 2020-11-26 20:15:47 · 317 阅读 · 1 评论 -
大数据 -- 05-- Kafka
KafkaKafka简介他是一个MQ,作用:削峰平谷ActiveQM(6k)、RabbitMQ(1.2w) 适用与业务系统(对事务要求极高)ZeroMQ(25-50w)、Kafka(25-50w)适用于大数据(对速度和吞吐量要求高,海量数据中,数据可能丢失,但对结果影响微乎其微)Kafka为发布/订阅模式。Kafka已经成为大数据业界主流。Apache Kafka® 是 一个分布式流处理平台. 这到底意味着什么呢?我们知道流处理平台有以下三种特性:可以让你发布和订阅流式的记录原创 2020-11-26 19:06:29 · 333 阅读 · 1 评论 -
大数据 -- 04-- Hive
HiveHadoop在分布式数据处理中遇到的问题MR开发调试复杂,不适合要求快速得出结果的场景。Hadoop由Java开发,对JAVA支持最好,对其他语言的使用者不够友好。需要对Hadoop底层具有一定的了解,并且熟悉API才能开发出优秀的MR程序。概述Hive是一个建立在Hadoop基础之上的数据仓库工具,以HiveQL(类SQL)的操作方式让我们能够轻松的实现分布式的海量离线数据处理。而不必去编写调试繁琐的MR程序。优点:避免了MR繁琐的开发调试过程,Hive自动将我们输入的HQ原创 2020-11-24 18:52:09 · 459 阅读 · 1 评论 -
大数据 -- 03-- Flume
Flume分布式日志收集系统支持接收多种数据来源,可以对日志信息进行简单处理,然后写出到数据存储系统中。重要概念Event:事件,数据载体,flume将日志数据包装成event进行传输处理,其结构非常简单,就是json串。Eg:{“headers”:info,”body”:info}其中headers中的数据允许自定义的一些内容。Body中的数据就是日志本身。Agent:代理,flume集群中,每个节点都是一个agent,包含了flume单节点:接受、封装、承载、传输event到目的地的原创 2020-11-24 14:21:38 · 119 阅读 · 1 评论 -
大数据 -- 02-- Hadoop
Hadoop概述Hadoop是大数据领域中非常重要的基础技术,他是一个海量数据存储、处理系统,也是一个生态圈(HDFS,MapReduce,Hive,Hbase等)历史Google:搜索引擎。收集互联网上的所有数据,存储数据,处理数据,提供给用户。Google搜索引擎相关技术非常成熟,但是并没有开源,不过,在2004年先后发表了两篇论文:《Google File System》(GFS)、《MapReduce》阐述了Google如何将海量数据进行存储和处理。2006年发表了《BigTable》启发了原创 2020-11-22 21:21:40 · 232 阅读 · 1 评论 -
大数据 -- 01-- 简介、环境搭建
大数据简单来说大数据就是海量数据及其处理方式.大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中 大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多原创 2020-11-19 20:09:47 · 2612 阅读 · 2 评论