爱纹身的big数据-CSDN博客

原创这......Spark面试题！

1.什么是 Apache Spark? 它有什么特点?Apache Spark是一个分布式计算框架，它可以在大规模数据集上进行高效的数据处理和分析。它最初由加州大学伯克利分校的AMPLab开发，并于2013年成为Apache软件基金会的顶级项目。Apache Spark的特点包括：快速：相比于传统的MapReduce计算框架，Spark的计算速度更快。这是因为Spark使用内存计算，能够更高效地管理数据，同时也支持内存缓存。易于使用：Spark提供了Scala、Java、Python、R等

2023-03-28 09:09:37 773 1

原创惊了！10万字的Spark全文！

今天给大家分享一篇小白易读懂的 Spark万字概念长文，本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍，从基础概念入手、再到原理深入，由浅入深地轻松掌握Spark。

2022-11-17 14:18:16 817

原创老弟手把手教你编译Spark3.2.1源码！！！！！

一年多没更新博客了，这一年博主经历了很多，也学到了很多，近期会持续更新文章，主题不固定，哦，对了，博主跟几个朋友一起创建了一个大数据的技术社区，我们每周都会有技术分享以及技术交流的会议，目前社区人数高达800+，感兴趣的朋友可以扫描上方的二维码关注下社区的公众号，同时也可以添加博主的VX，邀你进群咱们一起交流啊！

2022-10-21 15:51:04 728 2

原创浅谈数据湖的探究与调研！

注：对于数据湖博主也是近期开始研究探索的，下面给大家简单的聊一聊数据湖。浅谈数据湖的探究与调研！1、什么是数据湖（Data lake）？数据湖是目前比较热的一个概念，许多的企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，要搞清楚什么是数据湖，要明确一个数据湖项目的基本组成，从而去进行设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。Wikipedia（维基百科）上说数据湖是一个以原始格式存储数据的存储库或系统、它按原样存储数据，而无需事先对数据进.

2021-03-22 17:06:10 1603

原创带你认识Apache的顶级项目Flink！

注：对于Flink呢博主也是在开始进行深度的一个学习，其次就是Flink这个框架很值得去学习，有很大的学习价值，博主也是一个00后的大数据程序员，这条路很难，但是我坚信只要努力坚持的走下去，还是会有很大的收获的。一 flink 简介1.1 什么是 Flink？Apache Flink 是由 Apache 软件基金会开发的开源流处理框架，其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序，Flink 的流水线运行时系统可以执行批.

2021-01-16 12:42:20 1077 1

原创大数据之Hadoop面试官的11个灵魂拷问！

久违了各位，好长时间没更新了，博主也是有点懒!!！今天就给各位更新一些Hadoop高端面试题，也是博主这一年面试所遇到的问题，其中还包括一些大厂的面试真题！注：喜欢的朋友们给个关注，一键三连一下吧！谢谢1、先说一下hadoop的组成结构把！1.HDFS 管理者:namenode工作者:DataNode辅助管理者:secondaryNameNode2.MapReduce3.YARN管理者:ResourceManage工作者:NodeManage2、常用的端口号有哪些？dfs

2021-01-14 15:12:19 718

原创虚拟机启动出现异常！

这是我的从节点，主节点启动没问题，这种情况是你的虚拟机非正常关机，或者是你的虚拟机开着而你的电脑非正常关机了，导致你的文件系统损坏，下面是修复的步骤。！！！1、输入你的密码2、fsck3、y修复完成后reboot重启你的虚拟机！...

2020-12-14 09:13:22 1479

原创安装Apache Hbase 1.1.1（搭建kylin必要的操作）

安装 Apache Hbase 1.1.1整体步骤：下载hbase 1.1.1版本上传到一台服务器，解压缩修改hbase-env.sh修改hbase-site.xml修改regionservers在hbase conf目录中创建core-site.xml和hdfs-site.xml软连接配置HBase环境变量分发安装包到其他节点分发/etc/profile文件到其他节点重新加载环境变量具体操作步骤：下载hbase 1.1.1版本链接：https://pan.baidu.

2020-11-30 17:08:57 321

原创热文：Centos7 安装 python 2.7.15 和 pip

1、先安装 GCC 包，如果没安装 GCC包就输入以下命令行安装；（*注：以下记得使用 su 权限）yum install gcc openssl-devel bzip2-devel2、用 wget 下载 python 2.7 并解压如果没有 wget，先用下面命令安装 wget；yum -y install wget　　进入目录 /export/soft 再用 wget 下载 python 2.7（我是新建了一个目录_所有的安装包都在这下边）mkdir -p /export/sof

2020-11-19 10:51:55 264

原创热文：CentOS7最详细的系统安装步骤

接着上篇《热文：创建虚拟主机步骤》。第一步：第二步：第三步：第四步：↑ ↓ 键可以选择，这里选择Install CentOS 7第五步：默认选择 English 接着Continue跳过第六步：可以设置日期和时间第七步：时区选择Asia/Shanghai，调整好下方的时间，点击Done下一步即可第八步：选择安装软件包第九步：小白选择GNOME Desktop就行，选择完后点击Done下一步第十步：系统安装位置第十一步：选择下边的I wi

2020-10-20 12:51:20 437

原创热文：创建虚拟主机步骤

上班闲着无趣，更新一些简单的基础东西，之前我的虚拟机用的ios镜像是CentOS6.9的，所以我决定使用CentOS7在重新创建几个节点，首先给大家讲一下创建虚拟主机吧！虚拟机15.1.0安装包：https://pan.baidu.com/s/1MR9I-nYVBHsKVNMksJXaqw提取码：41o0傻瓜式安装就可以了，这个就不给讲解了。CentOS7.0下载地址：阿里云站点：http://mirrors.aliyun.com/centos/7/isos/x86_64/步入正题第一步：

2020-10-15 11:17:10 563 4

原创热文：CentOS7安装MySQL数据库

话不多说直接开始了.1、首先我们需要去下载rpm包wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm（下载rpm）rpm -ivh mysql-community-release-el7-5.noarch.rpm（安装rpm包）yum install mysql-server（直接安装）2、操作MySQL数据库service mysql start (启动数据库运行)service mysql s

2020-10-13 09:35:38 1740 6

原创 Structured Streaming快速入门详解（8）

接着上一篇《Spark Streaming快速入门系列（7）》，这算是Spark的终结篇了，从Spark的入门到现在的Structured Streaming，相信很多人学完之后，应该对Spark摸索的差不多了，Spark是一个很重要的技术点，希望我的文章能给大家带来帮助。第一章 Structured Streaming曲折发展史1.1. Spark StreamingSpark Streaming针对实时数据流，提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming接

2020-08-13 10:31:51 2130

原创 Spark Streaming快速入门系列（7）

上一篇《SparkSQL快速入门系列（6）》，接下来给大家更新下一篇。第一章 Spark Streaming引入1.1. 新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等●还有很多很多1.2. Spark Streaming介绍●官网http://

2020-08-05 14:14:03 1047

原创 SparkSQL快速入门系列（6）

上一篇《SparkCore快速入门系列（5）》，下面给大家更新一篇SparkSQL入门级的讲解。第一章 Spark SQL概述1.1 Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式，包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特.

2020-07-31 13:57:03 736

原创 SparkCore快速入门系列（5）

铁铁们，博主前段时间在做一些项目加上找工作所以到现在才更新，(__) 嘻嘻……博主现在已经工作啦，后期会给你们更新一些关于数据库以及报表开发的文章哦！接下来言归正传！！！！！！1、RDD详解1.1. 什么是RDD1.1.1 为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，之前的MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘.

2020-07-30 13:53:58 2593 1

原创使用IDEA编写Spark程序（4）

在这里插入图片描述1、pom.xml●创建Maven项目并补全目录、配置pom.xml <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...

2020-05-07 23:34:17 879

原创 Spark之三大集群模式—详解（3）

standalone集群模式铁子话不多说，开整 ↓↓↓↓↓↓1、集群角色介绍standalone独立集群模式–开发测试使用Spark是基于内存计算的大数据并行计算框架，实际中运行计算任务肯定是使用集群模式，那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型，master...

2020-04-17 22:02:52 1128

原创快速搭建Spark环境之local本地模式-Spark初体验（2）

Spark环境搭建上一篇《大数据最火的Spark你确定不来了解一下吗？（1）》给大家详细介绍了Spark，下面教给大家怎样去搭建Spark的环境.铁子话不多说，开整 ↓↓↓↓↓↓■我们选择目前企业中使用最多的稳定版Spark2.2.0■使用Apache版还是CDH版?1.Apache版直接下载官方编译好的基于Apache Hadoop的Spark即可2.自己下载Spark源码基于C...

2020-04-17 21:21:59 667

原创大数据最火的Spark你确定不来了解一下吗？（1）

上一阶段给大家分享的Scala，这一阶段是Spark，学Spark的前提得先熟悉，并且熟练操作Scala，下面先给大家介绍一下Spark！！！！！！文章目录：Spark概述1. Spark官方介绍2. Spark特点3. 激动人心的Spark发展史4. Spark为什么会流行5. Spark运行模式Spark概述1. Spark官方介绍●Spark是什么Apache Spark...

2020-04-05 21:37:28 889

原创带你快速掌握Scala操作———（5）

文章目录：1、类型判断2、getClass和classOf3、抽象类抽象方法4、抽象字段5、匿名内部类6、特质(trait)7、trait作为接口使用示例 | 继承单个trait示例 | 继承多个trait示例 | object继承trait8、特质 | 定义具体的方法9、trait中定义具体的字段和抽象的字段10、使用trait实现模板模式11、对象混入trait12、trait实现调用链模式责...

2020-04-05 19:47:56 505

原创带你快速掌握Scala操作———（4）

文章目录：1、iterator迭代器使用迭代器遍历集合2、类和对象创建类和对象定义和访问成员变量3、使用下划线初始化成员变量4、定义成员方法5、访问修饰符6、类的构造器主构造器辅助构造器7、单例对象定义单例对象8、工具类案例9、main方法10、伴生对象private[this]访问权限11、继承示例 | 类继承示例 | 单例对象继承12、override和super1、iterator迭代器...

2020-04-05 18:56:31 554

原创带你快速掌握Scala操作———（3）

1、函数scala支持函数式编程，将来编写Spark/Flink程序中，会大量使用到函数定义函数语法val 函数变量名 = (参数名:参数类型, 参数名:参数类型....) => 函数体 函数是一个对象（变量） 类似于方法，函数也有输入参数和返回值 函数定义不需要使用def定义 无需指定返回值类型参考代码scala> val add = (x:Int...

2020-04-04 00:05:02 510

原创带你快速掌握Scala操作———（2）

继续上一篇《Scala基础操作（1）———Scala解释器，声明变量，字符串》给大家接着分享下面的操作！！！！！！1、数据类型与操作符scala中的类型以及操作符绝大多数和Java一样数据类型基础类型类型说明Byte8位带符号整数Short16位带符号整数––Int32位带符号整数注意下 scala类型与Java的区别1. scal...

2020-04-01 11:42:47 1158

原创带你快速掌握Scala操作———（1）

前一段时间给大家简单介绍了Scala以及Scala的环境安装，还没看的小伙伴可以先去看一看，把环境配置好。Scala快速入门简介——（一）Scala之开发环境安装——（二）一定要先去看这两篇，配置好环境，才可以进行操作哦！！！！！！1、scala解释器后续我们会使用scala解释器来学习scala基本语法，scala解释器像Linux命令一样，执行一条代码，马上就可以让我们看到执行结果，...

2020-03-27 22:31:29 399

原创 Kafka监控以及Kafka-eagle快速安装配置（6）——Kafka-eagle

1、环境和安装1.1 环境要求需要安装jdk，启动zk以及kafka的服务2、安装步骤2.1 下载源码包链接：https://pan.baidu.com/s/1d0JOkgxkmYwM14Seb3A41g提取码：xkv42.2 解压这里我们选择将kafak-eagle安装在第三台直接将kafka-eagle安装包上传到node03服务器的/export/softwares路径下，...

2020-03-24 11:47:14 1290

原创 Kafka（5）——JavaAPI十道练习题

以下kafka集群的节点分别是node01,node02,node03习题一：在kafka集群中创建student主题副本为2个，分区为3个生产者设置：设置key的序列化为 org.apache.kafka.common.serialization. StringSerializer 设置value的序列化为org.apache.kafka.common.serializatio...

2020-03-24 10:56:04 1331

原创 kafka的JavaAPI操作（4）——进来了解一下吧！

快速认识Kafka阶段（1）——最详细的Kafka介绍教你快速搭建Kafka集群（2）——Kafka集群安装部署Kafka集群的简单操作入门（3）——Kafka集群操作前面三篇文章给大家分享了kafka的一些理论知识和简单的操作，下面给大家分享Kafka的JavaAPI的操作!!!先点个赞吧!1、kafka的JavaAPI操作1、创建maven工程并添加jar包创建maven工程并添...

2020-03-22 11:58:08 1109

原创 Kafka集群的简单操作入门（3）——Kafka集群操作

上一篇《教你快速搭建Kafka集群（2）——Kafka集群安装部署》中教大家安装的Kafka的集群，下面这一篇给大家讲一些集群的简单操作哦！！！！！！Kafka集群操作1、创建topic创建一个名字为test的主题，有三个分区，有两个副本node01执行以下命令来创建topiccd /export/servers/kafka_2.11-1.0.0bin/kafka-topics.s...

2020-03-22 10:53:09 1437

原创教你快速搭建Kafka集群（2）——Kafka集群安装部署

上一篇快速认识Kafka阶段（1）——消息队列，Kafka基本简介给大家简单介绍了消息队列和kafka的一些基本内容，下面教大家怎样去安装部署Kafka集群哦！！！！！！码字不易先点个赞吧!1、初始化环境准备安装jdk，安装zookeeper并保证zk服务正常启动2、下载安装包并上传解压点击文字下载Kafka安装包提取码：r766 node01执行以下命令，下载并解压cd /...

2020-03-19 20:39:30 3431

原创快速认识Kafka阶段（1）——最详细的Kafka介绍

上一阶段给大家讲的是Redis，接下来这一阶段，我给你大家更新Kafka的知识分享哦!!!企业中离线业务场景实时业务场景都需要使用到kafkaKafka具备数据的计算能力和存储能力，但是两个能力相对（MR/SPARK，HDFS）较弱.Kafka角色的角色与hbase比较像，层级关系比较多。1、消息队列的介绍消息：是指在应用之间传送的数据，消息可以非常简单，比如只包含文本字符串，也可以更...

2020-03-18 22:03:10 798

原创你需要了解的Redis当中的Sentinel架构（七）

上篇文章Redis的主从复制架构你需要了解！（六）中最后的一个问题大家知道答案吗？下面让我来给大家解答吧！！！若主节点宕机，将无法写数据到redis。如何解决呢？答案：引入哨兵机制，当主节点宕机时，哨兵会在从节点中选取一个节点作为主节点，提供数据写入服务。Redis当中的Sentinel架构Sentinel（哨兵）是Redis 的高可用性解决方案：由一个或多个Sentinel 实例组...

2020-03-17 22:26:56 333

原创 Redis的主从复制架构你需要了解！（六）

上一篇文章Redis的持久化你还不知道呢吧？（五），给大家简单介绍了一些关于Redis持久化的内容，这篇呢给大家普及一下Redis的主从复制架构！！！！！！Redis的主从复制架构在Redis中，用户可以通过执行SLAVEOF命令或者设置slaveof选项，让一个服务器去复制（replicate）另一个服务器，我们称呼被复制的服务器为主服务器（master），而对主服务器进行复制的服务器则被称...

2020-03-17 22:03:17 326

原创 Redis的持久化你还不知道呢吧？（五）

上一篇本博主给小伙伴们普及的是Redis的Java API操作你学会了吗？（四），接下来本博主给大家讲解一下Redis的持久化是怎么个事！！！！！！Redis的持久化由于redis是一个内存数据库，所有的数据都是保存在内存当中的，内存当中的数据极易丢失，所以redis的数据持久化就显得尤为重要，在redis当中，提供了两种数据持久化的方式，分别为RDB以及AOF，且redis默认开启的数据持久...

2020-03-17 21:46:17 307

原创 Redis的Java API操作你学会了吗？（四）

上篇文章Redis数据类型以及基本操作你知道吗？（三）给大家简单介绍以及操作了一些Redis的基本数据类型，下面这篇文章，小生主要给大家简单介绍以及操作一下Redis的Java API的流程和操作！！！Redis的javaAPI操作redis不仅可以通过命令行进行操作，同时redis也可以通过javaAPI进行操作，我们可以通过使用javaAPI来对redis数据库当中的各种数据类型进行操作!...

2020-03-17 21:24:45 300

原创 Redis数据类型以及基本操作你知道吗？（三）

想学会操作Redis，请大家先把Redis环境配置好，不会配置的小伙伴推荐你去看看上一篇哦带你快速安装部署Redis （二）Redis的数据类型redis当中一共支持五种数据类型，分别是string字符串类型，list列表类型，集合set类型，hash表类型以及有序集合zset类型，通过这五种不同的数据类型，我们可以实现各种不同的功能，也可以应用与各种不同的场景，接下来我们来看看五种数...

2020-03-15 22:04:36 276

原创带你快速安装部署Redis （二）

相信大家看了上一篇文章快速认识Redis（一），对Redis都有所了解啦吧，下面小生带领大家快速安装部署一下环境吧！！！！！！Redis 安装部署redis包链接提取码：g60y第一步：下载redis安装包node01服务器执行以下命令下载redis安装包cd /export/softwares 进入安装包所在目录将安装包上传到此目录第二步：解压redis压缩包到指定目录...

2020-03-15 20:55:00 3213

原创快速认识Redis（一）

不好意思哈~ 各位你们的Redis迟到了！！！！！！好了废话不多说开更！！！！！！问题：什么是Redis？是一个基于内存的使用C语言开发的key – value的nosql数据库（存储系统）。1、 NoSQL数据库NoSQL: no sql 没有SQL(不支持sql查询) not only sql 不仅仅只有SQLNoSQL适用场景• 对数据高并发的读...

2020-03-15 20:25:06 2677

原创快速带你搭建Hadoop的HA集群！（确定不来看看吗？）

相信大家在看了前面一篇《Hadoop High Availability （高可用）详细讲解》之后，大家一定在想怎么搭建Hadoop HA的集群呢？不要着急，小生接下来就带大家快速搭建一下(#.#)。小生码字不易啊，各位先给点个赞吧！说明：搭建前先备份集群将集群名字改一下然后重新解压你的hadoop包解压命令 tar zxvf 包名 -C 指定解压目录解压后的新hadoo...

2020-03-13 15:43:10 2775