Hadoop
文章平均质量分 92
Hadoop全家桶,了解一下!
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
Hive查询的18种方式,你都学会了吗?
Hive查询的18种方式,确定不点击进来学习一下吗?原创 2020-12-05 10:14:42 · 4785 阅读 · 39 评论 -
关于Hive命令的7个小技巧,你都清楚吗?
前言 最近在看冰河大佬写的《海量数据处理与大数据技术实战》,该书涵盖以Hadoop为主的多款大数据技术框架实战的内容,兼顾理论与实操,是市面上难得的技术好书。本篇文章,我就分享一下从中学习到的关于Hive命令的7个小技巧,受益的朋友记得来发三连⭐支持一下哟~Hive命令说明 在Hive提供的所有连接方式中,命令行界原创 2020-11-22 01:17:33 · 3213 阅读 · 32 评论 -
大数据面试杀招 | Flink,大数据时代的“王者”
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-11-02 23:14:43 · 5859 阅读 · 35 评论 -
简单告诉你,为什么要学 Flink,Flink 优势在哪?
知道大数据的同学也应该知道 Flink 吧,最近在中国的热度比较高,在社区的推动下,Flink 技术栈在越来越多的公司开始得到应用。Flink 到底火不火? 据不完全统计,Flink 在中国公司的采用情况(部分) 其中,转载 2020-11-01 22:21:43 · 3304 阅读 · 0 评论 -
快速入门Flink (10) —— DataStream API 开发之【EventTime 与 Window】
在上一篇博客中,博主已经为大家介绍了DataStream API 开发之【Time 与 Window】,并着重介绍了常用的 Window API 。本篇博客,我们就趁热打铁,继续接下去讲, DataStream API 开发之【EventTime 与 Window】。 码字不易,先赞后看!!!文章目录2、Even原创 2020-10-31 20:36:07 · 1585 阅读 · 17 评论 -
Hadoop源代码分析【6-10】
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-10-10 16:04:36 · 1317 阅读 · 0 评论 -
Hadoop源代码分析【1-5】
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-10-06 12:33:28 · 3426 阅读 · 22 评论 -
你有想过,如何用Hadoop实现【倒排索引】?
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-10-05 00:42:28 · 4183 阅读 · 29 评论 -
Flume监控之Ganglia安装与简单实践
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-09-19 00:42:17 · 3589 阅读 · 30 评论 -
大数据小白必知必会之Flume实现过滤器效果
Flume如何实现过滤器效果?快来瞅瞅!原创 2020-09-17 00:19:35 · 3057 阅读 · 31 评论 -
快速入门Flink (9) —— DataStream API 开发之【Time 与 Window】
本文是快速入门Flink的第九篇博客,主要介绍的是关于DataStream API的开发,其中涉及到一些抽象性名词,理解起来会有点难度,希望大家认真阅读ヽ( ̄▽ ̄)ノ 码字不易,先赞后看!!!文章目录DataStream API 开发1、Time 与 Window1.1 Time1.2 Window1.2.1 Wi原创 2020-08-11 16:40:25 · 2688 阅读 · 43 评论 -
快速入门Flink (8) —— DataStream 的 Transformation常用操作
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-08-10 16:45:47 · 3506 阅读 · 46 评论 -
快速入门Flink (7) —— 小白都喜欢看的Flink流处理之DataSources和DataSinks
不知不觉,这已经是快速入门Flink系列的第7篇博客了。早在第4篇博客中,博主就已经为大家介绍了在批处理中,数据输入Data Sources 与数据输出Data Sinks的各种分类(传送门:Flink批处理的DataSources和DataSinks)。但是大家是否还记得Flink的概念?Flink是 分布式、 高性能、 随时可用以及准确的为流处理应用程序打造的开源流处理框架。所以光介绍了批处理哪里行呢!本篇博原创 2020-08-10 11:23:19 · 3615 阅读 · 43 评论 -
快速入门Flink (6) —— Flink的广播变量、累加器与分布式缓存
> **写在前面:** 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新`。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:[http://alices.ibilibili.xyz/](http://alices.ibilibili.xyz/) , 博客主页:[https://alice.blog.csdn.net/](http原创 2020-08-01 23:45:40 · 3834 阅读 · 49 评论 -
快速入门Flink (5) ——DataSet必知必会的16种Transformation操作(超详细!建议收藏!)
> **写在前面:** 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新`。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:[http://alices.ibilibili.xyz/](http://alices.ibilibili.xyz/) , 博客主页:[https://alice.blog.csdn.net/](http原创 2020-07-29 16:12:30 · 5084 阅读 · 47 评论 -
快速入门Flink (4) —— Flink批处理的DataSources和DataSinks,你都掌握了吗?
> **写在前面:** 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新`。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:[http://alices.ibilibili.xyz/](http://alices.ibilibili.xyz/) , 博客主页:[https://alice.blog.csdn.net/](http原创 2020-07-25 23:59:30 · 3246 阅读 · 30 评论 -
快速入门Flink (3) —— Flink的运行架构
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-07-20 00:02:32 · 3512 阅读 · 43 评论 -
快速入门Flink (2) —— Flink 集群搭建
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.原创 2020-07-17 14:35:47 · 4510 阅读 · 36 评论 -
快速入门Flink (1) —— Flink的简介与架构体系
文章目录一、Flink 的简介1.1 Flink的引入1.2 什么是 Flink1.3 Flink 流处理特性1.4 Flink 基石1.5 批处理与流处理一、Flink 的简介1.1 Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm, 以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内.原创 2020-07-16 16:30:54 · 4375 阅读 · 35 评论 -
史上最良心的scala的思维导图,图文并茂,入坑首选!
前段时间学习了scala,为了能更好地梳理知识的脉络,掌握到核心的精髓,博主花了几天时间整理了这份关于scala的思维导图,分为三部分在这里展示给大家。 整理不易,先赞后看,养成习惯!scala01sc...原创 2020-04-05 12:57:36 · 11063 阅读 · 55 评论 -
Yarn知识点整理
前段时间记录了技术博客Yarn快速入门系列(1-5),详情请见Yarn专栏。最近打算花点时间把Yarn也精炼一番,整理出来,以便于后期的快速复习。文章目录1、什么是Yarn2、Yarn特点3、Yarn的意义4、Yarn基本组成5、Yarn提交任务的流程6、Yarn的调度方式7、参数yarn.sche...原创 2020-03-29 15:36:42 · 10438 阅读 · 20 评论 -
Hadoop常见组件启动方式汇总(持续更新....)
接触过大数据领域的朋友都知道,Hadoop生态系统十分的庞大,许多组件启动的方式也是不尽相同,今天博主抽空整理了一下大数据生态圈中常见组件的启动方式,也算是为自己巩固了一下基础吧~ 在开始之前,博主先把所有的...原创 2020-03-14 19:49:32 · 8443 阅读 · 16 评论 -
带你快速搭建Hadoop的HA集群!
相信在看了上一篇博客《带你快速认识NamenodeHA和Yarn HA,为搭建HadoopHA集群打下基础!》后,大家一定对于如何搭建HA集群非常期待٩(๑❛ᴗ❛๑)۶不要慌,本篇博客即将为大家带来搭建HA集群的详细教程! &nbs...原创 2020-03-11 18:47:47 · 9116 阅读 · 4 评论 -
带你快速认识NamenodeHA和Yarn HA,为搭建HadoopHA集群打下基础!
本篇博客,博主主要为大家介绍的是什么是NamenodeHA 和 Yarn HA。并在下一篇博客中为大家带来关于搭建Hadoop集群的步骤! 码字不易,先赞后看!文章目录Hadoop High Availa...原创 2020-03-11 15:07:49 · 8056 阅读 · 16 评论 -
什么是Avro?Hadoop首选串行化系统——Avro简介及详细使用
本篇博客,Alice为大家介绍的是Hadoop中作为首选串行化系统的Avro。文章目录简介特点Avro数据类型和模式Avro基本类型Avro复杂类型Avro数据序列化/反序列化方法1 使用编译的方式序列化反序列化方法2 不使用编译的方式序列化反序列化简介 &n...原创 2020-02-15 21:06:18 · 8525 阅读 · 0 评论 -
Phoenix的索引介绍与创建
在海量数据背景下,查询数据快速返回是典型的应用场景。在phoenix数据表基础之上创建索引,能够大幅提高数据的查询效率。Phoenix支持的索引有三个类型,分别是覆盖索引、全局索引、本地索引。 A: 覆盖索...原创 2019-12-29 00:20:40 · 4113 阅读 · 21 评论 -
Phoenix的使用方式详解
本篇博客小菌为大家分享的是关于Phoenix的使用方式与常用shell。 前文传送门:《Phoenix(凤凰)的安装介绍》Phoenix使用 &n...原创 2019-12-28 10:53:13 · 4848 阅读 · 20 评论 -
Phoenix(凤凰)的安装介绍
本篇博客,小菌为大家带来的是关于Phoenix的入门介绍及安装说明。 Phoenix 介绍 phoenix,中...原创 2019-12-28 00:17:38 · 3876 阅读 · 16 评论 -
把本地的文件数据导入到Hive分区表--系列①Java代码
本篇博客,小菌为大家带来关于如何将本地的多个文件导入到Hive分区表中对应的分区上的方法。一共有四种方法,本篇将介绍第一种—Java代码。 &nb...原创 2019-12-25 23:31:02 · 5902 阅读 · 2 评论 -
HBase:Region管理与Master工作机制
本篇博客小菌为大家带来的是HBase的Region管理与Master工作机制。region 的管理 首先让我们来看下region的管理,当然这存在一个前提: 任何时刻,一个region只能分配给一个regi...原创 2019-12-22 21:22:56 · 4372 阅读 · 9 评论 -
HBase的读写流程
本篇博客小菌为大家带来的是关于HBase的读写路程的介绍。 读请求流程在介绍之前先为大家科普几个前提!什么是meta表?meta 表时hbase系统自带的一个表。里面存储了hbase用户表的原信息。...原创 2019-12-22 20:39:32 · 3717 阅读 · 9 评论 -
HBase的rowKey设计技巧
本篇博客小菌为大家带来的是HBase的rowKey设计技巧! HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(...原创 2019-12-20 23:31:16 · 3810 阅读 · 8 评论 -
HBase的预分区介绍及设置
本篇博客小菌为大家带来关于HBase的预分区的内容分享! 在正式开始介绍之前,我们先联系一下之前所学的内容 , 想想原本数据分区(分region)的过程是怎样的? &nb...原创 2019-12-20 23:05:12 · 5526 阅读 · 8 评论 -
HBase的3个重要机制
本篇博客,小菌为大家带来的是关于HBase的3个重要机制。 1.flush 机制1.(hbase.regionserver.global.memstore.size) 默认;堆大小的40%regionServer的全局memstore的大小,超过该大小会触发flush到磁盘的操作,默认是堆大小的40%,而且reg原创 2019-12-18 16:28:00 · 3998 阅读 · 8 评论 -
HBase的JavaAPI使用--进阶篇--过滤器的使用
本篇博客,小菌为大家带来HBase的进阶使用,关于基础入门操作大家可以去阅览小菌之前的博客《HBase的JavaAPI使用–基础篇》。 在展示代码之前先为大家介绍一下过滤器,同时它也是我们这篇博客介绍的主角。...原创 2019-12-18 13:43:40 · 4601 阅读 · 8 评论 -
Apache Kylin(麒麟)入门介绍
为什么需要Kylin? &n...转载 2019-12-15 22:31:15 · 6301 阅读 · 0 评论 -
一文读懂Apache Kylin(麒麟)
“麒麟出没,必有祥瑞。” —— 中国古谚语Kylin思维导图前言随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却...转载 2019-12-15 22:26:33 · 5010 阅读 · 0 评论 -
Sqoop入门介绍及安装
介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译...原创 2019-12-15 19:58:57 · 4169 阅读 · 0 评论 -
大数据技术原理与应用之【Spark】习题
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark...原创 2019-12-15 19:15:06 · 14572 阅读 · 2 评论 -
HBase底层原理(多维度分析)
本篇博客,小菌为大家带来的是关于HBase底层原理的讲解! 先上HBase的系统架构图 系统架构是不是看的...原创 2019-12-13 20:56:34 · 5866 阅读 · 0 评论