自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (9)
  • 收藏
  • 关注

原创 这......Spark面试题!

1.什么是 Apache Spark? 它有什么特点?Apache Spark是一个分布式计算框架,它可以在大规模数据集上进行高效的数据处理和分析。它最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apache软件基金会的顶级项目。Apache Spark的特点包括:快速:相比于传统的MapReduce计算框架,Spark的计算速度更快。这是因为Spark使用内存计算,能够更高效地管理数据,同时也支持内存缓存。易于使用:Spark提供了Scala、Java、Python、R等

2023-03-28 09:09:37 2143 1

原创 惊了!10万字的Spark全文!

今天给大家分享一篇小白易读懂的 Spark万字概念长文,本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、再到原理深入,由浅入深地轻松掌握Spark。

2022-11-17 14:18:16 3494

原创 老弟手把手教你编译Spark3.2.1源码!!!!!

一年多没更新博客了,这一年博主经历了很多,也学到了很多,近期会持续更新文章,主题不固定,哦,对了,博主跟几个朋友一起创建了一个大数据的技术社区,我们每周都会有技术分享以及技术交流的会议,目前社区人数高达800+,感兴趣的朋友可以扫描上方的二维码关注下社区的公众号,同时也可以添加博主的VX,邀你进群咱们一起交流啊!

2022-10-21 15:51:04 840 2

原创 浅谈数据湖的探究与调研!

注: 对于数据湖博主也是近期开始研究探索的,下面给大家简单的聊一聊数据湖。浅谈数据湖的探究与调研!1、什么是数据湖(Data lake)?数据湖是目前比较热的一个概念,许多的企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,要搞清楚什么是数据湖,要明确一个数据湖项目的基本组成,从而去进行设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数据湖?有不同的定义。Wikipedia(维基百科)上说数据湖是一个以原始格式存储数据的存储库或系统、它按原样存储数据,而无需事先对数据进.

2021-03-22 17:06:10 1685

原创 带你认识Apache的顶级项目Flink!

注: 对于Flink呢博主也是在开始进行深度的一个学习,其次就是Flink这个框架很值得去学习,有很大的学习价值,博主也是一个00后的大数据程序员,这条路很难,但是我坚信只要努力坚持的走下去,还是会有很大的收获的。一 flink 简介1.1 什么是 Flink?Apache Flink 是由 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的 流水线运行时系统可以执行批.

2021-01-16 12:42:20 1156 1

原创 大数据之Hadoop面试官的11个灵魂拷问!

久违了各位,好长时间没更新了,博主也是有点懒!!!今天就给各位更新一些Hadoop高端面试题,也是博主这一年面试所遇到的问题,其中还包括一些大厂的面试真题!注:喜欢的朋友们给个关注,一键三连一下吧! 谢谢1、先说一下hadoop的组成结构把!1.HDFS 管理者:namenode工作者:DataNode辅助管理者:secondaryNameNode2.MapReduce3.YARN管理者:ResourceManage工作者:NodeManage2、常用的端口号有哪些?dfs

2021-01-14 15:12:19 745

原创 虚拟机启动出现异常!

这是我的从节点,主节点启动没问题,这种情况是你的虚拟机非正常关机,或者是你的虚拟机开着而你的电脑非正常关机了,导致你的文件系统损坏,下面是修复的步骤。!!!1、输入你的密码2、fsck3、y修复完成后reboot重启你的虚拟机!...

2020-12-14 09:13:22 1531

原创 安装Apache Hbase 1.1.1(搭建kylin必要的操作)

安装 Apache Hbase 1.1.1整体步骤:下载hbase 1.1.1版本上传到一台服务器,解压缩修改hbase-env.sh修改hbase-site.xml修改regionservers在hbase conf目录中创建core-site.xml和hdfs-site.xml软连接配置HBase环境变量分发安装包到其他节点分发/etc/profile文件到其他节点重新加载环境变量具体操作步骤:下载hbase 1.1.1版本链接:https://pan.baidu.

2020-11-30 17:08:57 352

原创 热文:Centos7 安装 python 2.7.15 和 pip

1、先安装 GCC 包,如果没安装 GCC包 就输入以下命令行安装;(*注:以下记得使用 su 权限)yum install gcc openssl-devel bzip2-devel2、用 wget 下载 python 2.7 并解压如果没有 wget,先用下面命令安装 wget;yum -y install wget  进入目录 /export/soft 再用 wget 下载 python 2.7(我是新建了一个目录_所有的安装包都在这下边)mkdir -p /export/sof

2020-11-19 10:51:55 284

原创 热文:CentOS7最详细的系统安装步骤

接着上篇《热文:创建虚拟主机步骤》。第一步:第二步:第三步:第四步:↑ ↓ 键可以选择,这里选择Install CentOS 7第五步:默认选择 English 接着Continue跳过第六步:可以设置日期和时间第七步:时区选择Asia/Shanghai,调整好下方的时间,点击Done下一步即可第八步:选择安装软件包第九步:小白选择GNOME Desktop就行,选择完后点击Done下一步第十步:系统安装位置第十一步:选择下边的I wi

2020-10-20 12:51:20 469

原创 热文:创建虚拟主机步骤

上班闲着无趣,更新一些简单的基础东西,之前我的虚拟机用的ios镜像是CentOS6.9的,所以我决定使用CentOS7在重新创建几个节点,首先给大家讲一下创建虚拟主机吧!虚拟机15.1.0安装包:https://pan.baidu.com/s/1MR9I-nYVBHsKVNMksJXaqw提取码:41o0傻瓜式安装就可以了,这个就不给讲解了。CentOS7.0下载地址:阿里云站点:http://mirrors.aliyun.com/centos/7/isos/x86_64/步入正题第一步:

2020-10-15 11:17:10 587 4

原创 热文:CentOS7安装MySQL数据库

话不多说 直接开始了.1、首先我们需要去下载rpm包wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm(下载rpm)rpm -ivh mysql-community-release-el7-5.noarch.rpm(安装rpm包)yum install mysql-server(直接安装)2、操作MySQL数据库service mysql start (启动数据库运行)service mysql s

2020-10-13 09:35:38 1782 6

原创 Structured Streaming快速入门详解(8)

接着上一篇《Spark Streaming快速入门系列(7)》,这算是Spark的终结篇了,从Spark的入门到现在的Structured Streaming,相信很多人学完之后,应该对Spark摸索的差不多了,Spark是一个很重要的技术点,希望我的文章能给大家带来帮助。第一章 Structured Streaming曲折发展史1.1. Spark StreamingSpark Streaming针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming接

2020-08-13 10:31:51 2166

原创 Spark Streaming快速入门系列(7)

上一篇《SparkSQL快速入门系列(6)》,接下来给大家更新下一篇。第一章 Spark Streaming引入1.1. 新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等●还有很多很多1.2. Spark Streaming介绍●官网http://

2020-08-05 14:14:03 1700

原创 SparkSQL快速入门系列(6)

上一篇《SparkCore快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。第一章 Spark SQL概述1.1 Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特.

2020-07-31 13:57:03 1445

原创 SparkCore快速入门系列(5)

铁铁们,博主前段时间在做一些项目加上找工作所以到现在才更新,(__) 嘻嘻……博主现在已经工作啦,后期会给你们更新一些关于数据库以及报表开发的文章哦!接下来言归正传!!!!!!1、RDD详解1.1. 什么是RDD1.1.1 为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘.

2020-07-30 13:53:58 3490 1

原创 使用IDEA编写Spark程序(4)

在这里插入图片描述1、pom.xml●创建Maven项目并补全目录、配置pom.xml <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...

2020-05-07 23:34:17 902

原创 Spark之三大集群模式—详解(3)

standalone集群模式铁子话不多说,开整 ↓↓↓↓↓↓1、集群角色介绍standalone独立集群模式–开发测试使用Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型,master...

2020-04-17 22:02:52 1672

原创 快速搭建Spark环境之local本地模式-Spark初体验(2)

Spark环境搭建上一篇《大数据最火的Spark你确定不来了解一下吗?(1)》给大家详细介绍了Spark,下面教给大家怎样去搭建Spark的环境.铁子话不多说,开整 ↓↓↓↓↓↓■我们选择目前企业中使用最多的稳定版Spark2.2.0■使用Apache版还是CDH版?1.Apache版直接下载官方编译好的基于Apache Hadoop的Spark即可2.自己下载Spark源码基于C...

2020-04-17 21:21:59 825

原创 大数据最火的Spark你确定不来了解一下吗?(1)

上一阶段给大家分享的Scala,这一阶段是Spark,学Spark的前提得先熟悉,并且熟练操作Scala,下面先给大家介绍一下Spark!!!!!!文章目录:Spark概述1. Spark官方介绍2. Spark特点3. 激动人心的Spark发展史4. Spark为什么会流行5. Spark运行模式Spark概述1. Spark官方介绍●Spark是什么Apache Spark...

2020-04-05 21:37:28 1039

原创 带你快速掌握Scala操作———(5)

文章目录:1、类型判断2、getClass和classOf3、抽象类抽象方法4、抽象字段5、匿名内部类6、特质(trait)7、trait作为接口使用示例 | 继承单个trait示例 | 继承多个trait示例 | object继承trait8、特质 | 定义具体的方法9、trait中定义具体的字段和抽象的字段10、使用trait实现模板模式11、对象混入trait12、trait实现调用链模式责...

2020-04-05 19:47:56 800

原创 带你快速掌握Scala操作———(4)

文章目录:1、iterator迭代器使用迭代器遍历集合2、类和对象创建类和对象定义和访问成员变量3、使用下划线初始化成员变量4、定义成员方法5、访问修饰符6、类的构造器主构造器辅助构造器7、单例对象定义单例对象8、工具类案例9、main方法10、伴生对象private[this]访问权限11、继承示例 | 类继承示例 | 单例对象继承12、override和super1、iterator迭代器...

2020-04-05 18:56:31 806

原创 带你快速掌握Scala操作———(3)

1、函数scala支持函数式编程,将来编写Spark/Flink程序中,会大量使用到函数定义函数语法val 函数变量名 = (参数名:参数类型, 参数名:参数类型....) => 函数体 函数是一个对象(变量) 类似于方法,函数也有输入参数和返回值 函数定义不需要使用def定义 无需指定返回值类型参考代码scala> val add = (x:Int...

2020-04-04 00:05:02 1023

原创 带你快速掌握Scala操作———(2)

继续上一篇《Scala基础操作(1)———Scala解释器,声明变量,字符串》给大家接着分享下面的操作!!!!!!1、数据类型与操作符scala中的类型以及操作符绝大多数和Java一样数据类型基础类型类型说明Byte8位带符号整数Short16位带符号整数––Int32位带符号整数注意下 scala类型与Java的区别1. scal...

2020-04-01 11:42:47 1286

原创 带你快速掌握Scala操作———(1)

前一段时间给大家简单介绍了Scala以及Scala的环境安装,还没看的小伙伴可以先去看一看,把环境配置好。Scala快速入门简介——(一)Scala之开发环境安装——(二)一定要先去看这两篇,配置好环境,才可以进行操作哦!!!!!!1、scala解释器后续我们会使用scala解释器来学习scala基本语法,scala解释器像Linux命令一样,执行一条代码,马上就可以让我们看到执行结果,...

2020-03-27 22:31:29 441

原创 Kafka监控以及Kafka-eagle快速安装配置(6)——Kafka-eagle

1、环境和安装1.1 环境要求需要安装jdk,启动zk以及kafka的服务2、安装步骤2.1 下载源码包链接:https://pan.baidu.com/s/1d0JOkgxkmYwM14Seb3A41g提取码:xkv42.2 解压这里我们选择将kafak-eagle安装在第三台直接将kafka-eagle安装包上传到node03服务器的/export/softwares路径下,...

2020-03-24 11:47:14 1332

原创 Kafka(5)——JavaAPI十道练习题

以下kafka集群的节点分别是node01,node02,node03习题一:在kafka集群中创建student主题 副本为2个,分区为3个 生产者设置: 设置key的序列化为 org.apache.kafka.common.serialization. StringSerializer 设置value的序列化为org.apache.kafka.common.serializatio...

2020-03-24 10:56:04 1367

原创 kafka的JavaAPI操作(4)——进来了解一下吧!

快速认识Kafka阶段(1)——最详细的Kafka介绍教你快速搭建Kafka集群(2)——Kafka集群安装部署Kafka集群的简单操作入门(3)——Kafka集群操作前面三篇文章给大家分享了kafka的一些理论知识和简单的操作,下面给大家分享Kafka的JavaAPI的操作!!!先点个赞吧!1、kafka的JavaAPI操作1、创建maven工程并添加jar包创建maven工程并添...

2020-03-22 11:58:08 1147

原创 Kafka集群的简单操作入门(3)——Kafka集群操作

上一篇《教你快速搭建Kafka集群(2)——Kafka集群安装部署》中教大家安装的Kafka的集群,下面这一篇给大家讲一些集群的简单操作哦!!!!!!Kafka集群操作1、创建topic创建一个名字为test的主题, 有三个分区,有两个副本node01执行以下命令来创建topiccd /export/servers/kafka_2.11-1.0.0bin/kafka-topics.s...

2020-03-22 10:53:09 1472

原创 教你快速搭建Kafka集群(2)——Kafka集群安装部署

上一篇快速认识Kafka阶段(1)——消息队列,Kafka基本简介给大家简单介绍了消息队列和kafka的一些基本内容,下面教大家怎样去安装部署Kafka集群哦!!!!!!码字不易 先点个赞吧!1、初始化环境准备安装jdk,安装zookeeper并保证zk服务正常启动2、下载安装包并上传解压点击文字下载Kafka安装包提取码:r766 node01执行以下命令,下载并解压cd /...

2020-03-19 20:39:30 3521

原创 快速认识Kafka阶段(1)——最详细的Kafka介绍

上一阶段给大家讲的是Redis,接下来这一阶段,我给你大家更新Kafka的知识分享哦!!!企业中离线业务场景实时业务场景都需要使用到kafkaKafka具备数据的计算能力和存储能力,但是两个能力相对(MR/SPARK,HDFS)较弱.Kafka角色的角色与hbase比较像,层级关系比较多。1、消息队列的介绍消息:是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更...

2020-03-18 22:03:10 848

原创 你需要了解的Redis当中的Sentinel架构(七)

上篇文章Redis的主从复制架构你需要了解!(六)中最后的一个问题大家知道答案吗? 下面让我来给大家解答吧!!!若主节点宕机,将无法写数据到redis。如何解决呢?答案:引入哨兵机制,当主节点宕机时,哨兵会在从节点中选取一个节点作为主节点,提供数据写入服务。Redis当中的Sentinel架构Sentinel(哨兵)是Redis 的高可用性解决方案:由一个或多个Sentinel 实例 组...

2020-03-17 22:26:56 354

原创 Redis的主从复制架构你需要了解!(六)

上一篇文章Redis的持久化你还不知道呢吧?(五),给大家简单介绍了一些关于Redis持久化的内容,这篇呢给大家普及一下Redis的主从复制架构!!!!!!Redis的主从复制架构在Redis中,用户可以通过执行SLAVEOF命令或者设置slaveof选项,让一个服务器去复制(replicate)另一个服务器,我们称呼被复制的服务器为主服务器(master),而对主服务器进行复制的服务器则被称...

2020-03-17 22:03:17 350

原创 Redis的持久化你还不知道呢吧?(五)

上一篇本博主给小伙伴们普及的是Redis的Java API操作你学会了吗?(四),接下来本博主给大家讲解一下Redis的持久化是怎么个事!!!!!!Redis的持久化由于redis是一个内存数据库,所有的数据都是保存在内存当中的,内存当中的数据极易丢失,所以redis的数据持久化就显得尤为重要,在redis当中,提供了两种数据持久化的方式,分别为RDB以及AOF,且redis默认开启的数据持久...

2020-03-17 21:46:17 330

原创 Redis的Java API操作你学会了吗?(四)

上篇文章Redis数据类型以及基本操作你知道吗?(三)给大家简单介绍以及操作了一些Redis的基本数据类型,下面这篇文章,小生主要给大家简单介绍以及操作一下Redis的Java API的流程和操作!!!Redis的javaAPI操作redis不仅可以通过命令行进行操作,同时redis也可以通过javaAPI进行操作,我们可以通过使用javaAPI来对redis数据库当中的各种数据类型进行操作!...

2020-03-17 21:24:45 327

原创 Redis数据类型以及基本操作你知道吗?(三)

想学会操作Redis,请大家先把Redis环境配置好,不会配置的小伙伴推荐你去看看上一篇哦 带你快速安装部署Redis (二)Redis的数据类型redis当中一共支持五种数据类型,分别是string字符串类型,list列表类型,集合set类型,hash表类型以及有序集合zset类型,通过这五种不同的数据类型,我们可以实现各种不同的功能,也可以应用与各种不同的场景,接下来我们来看看五种数...

2020-03-15 22:04:36 295

原创 带你快速安装部署Redis (二)

相信大家看了上一篇文章 快速认识Redis(一),对Redis都有所了解啦吧,下面小生带领大家快速安装部署一下环境吧!!!!!!Redis 安装部署redis包链接 提取码:g60y第一步:下载redis安装包node01服务器执行以下命令下载redis安装包cd /export/softwares 进入安装包所在目录将安装包上传到此目录第二步:解压redis压缩包到指定目录...

2020-03-15 20:55:00 3240

原创 快速认识Redis(一)

不好意思哈~ 各位你们的Redis迟到了!!!!!!好了废话不多说开更!!!!!!问题:什么是Redis?是一个基于内存的使用C语言开发的key – value的nosql数据库(存储系统)。1、 NoSQL数据库NoSQL: no sql 没有SQL(不支持sql查询) not only sql 不仅仅只有SQLNoSQL适用场景• 对数据高并发的读...

2020-03-15 20:25:06 2697

原创 快速带你搭建Hadoop的HA集群!(确定不来看看吗?)

相信大家在看了前面一篇《Hadoop High Availability (高可用)详细讲解》之后,大家一定在想怎么搭建Hadoop HA的集群呢? 不要着急 ,小生接下来就带大家快速搭建一下(#.#)。小生码字不易啊,各位先给点个赞吧!说明:搭建前先备份集群将集群名字改一下然后重新解压你的hadoop包解压命令 tar zxvf 包名 -C 指定解压目录解压后的新hadoo...

2020-03-13 15:43:10 2821

原创 Linux集群时间同步操作

联网状态下与互联网上提供的时钟服务器进行同步同步命令 : ntpdate ntp4.aliyun.com配置离线状态下的时钟同步设置时钟同步服务器的时间(node04 2012-12-12 12:12:12)...

2020-03-13 11:21:11 601

Ali神龙JDK,内包含JDK1.8和JDK11,且支持X86和ARM框架

Ali神龙JDK,内包含JDK1.8和JDK11,且支持X86和ARM框架。

2022-10-21

Arm架构下的hadoop-aarch64-3.3.1版本安装包

Arm架构下的hadoop-aarch64-3.3.1版本安装包,支持阿里ECS g8m云服务器使用,且兼容JDK11。

2022-10-21

nexmark源码包-可用于flink和spark测试基准

Nexmark 基准测试框架不依赖任何第三方服务,只需要部署好引擎和 Nexmark,通过脚本 nexmark/bin/run_query.sh all 即可等待并获得所有 query 下的 benchmark 结果。

2022-10-21

Arthas开源Java诊断工具包

profile命令支持生成应用热点的火焰图。本质上是通过不断的采样,然后把收集到的采样结果生成火焰图。

2022-10-21

kettle连接clickhouse驱动

kettle连接clickhouse驱动

2021-04-06

apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz

apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz

2021-04-06

hiveIDEAjar.zip

idea编写hive-api需要的jar包

2021-04-06

cloudera-manager-server-db-2-6.3.1-1466458.el7.x86_64.rpm

cloudera-manager-server-db-2-6.3.1-1466458.el7.x86_64.rpm

2021-04-06

cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm

cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm

2021-04-06

cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm

cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm

2021-04-06

apache-kylin-3.1.0-bin-cdh60.tar.gz

apache-kylin-3.1.0-bin-cdh60.tar.gz

2021-04-06

apache-hive-3.0.0-bin.tar

apache-hive-3.0.0-bin.tar

2021-04-06

大数据基础面试宝典.zip

关注博主即可下载!!!!!!

2021-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除