自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王傲旗的大数据之路

微信公众号:王傲旗的大数据之路 获取更多大数据相关资料

  • 博客(214)
  • 收藏
  • 关注

原创 datax-web进行本地代码调试

如何进行本地对datax-web项目进行Debug先来思考一个问题:为什么要在本地进行Debug?答: 但凡是结果几天代码的同学都应该明白,我们写完代码之后打成jar包扔到linux服务器中去跑,最多也就看看错误日志出现在了什么地方,但是如果在本地的IDE中进行debug就可以快速的定位到问题!实操一下1.将最新的dev分支代码拉到本地2.修改配置文件admin分支下的bootstrap.properties文件配置本地datax的地址3.启动项目首先启动admin模块下的启动类然

2020-08-10 17:41:33 451

原创 大数据同步组件Datax5分钟快速入门

Datax使用指南DataX是什么?DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统,

2020-08-10 15:06:13 147

原创 还没找到大数据工作的同学赶紧看看这个帖子!!!

为什么找不到工作?今年是不平凡的一年,今年的面试真的是难上加难,大数据岗位本来就少,今年加上疫情企业缩招,导致大多数的大数据学习者找不到工作怎么才能找到工作?找对方法,系统复习没有面试机会创造面试机会多投简历,投1000家必定会有约你面试的,所谓萝卜白菜各有所爱?面试技巧去哪里找?1、哔哩哔哩百度搜索:大数据面试指南1.0或者哔哩哔哩搜索:大数据人的求职之路2、微信公众号微信公众号搜索:王傲旗的大数据之路回复以下密令,获取面试秘籍!回复071601:获得大数据面试的Xmind

2020-06-14 21:26:36 556 5

原创 SparkSQL之一张贴讲明白RDD丶DataFrame丶DataSet

先上个图在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:在这里插入代码片如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RDD和DataFrame成为唯一的API接口。三者的共性1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提

2020-06-13 17:04:57 101

原创 SparkSQL之DataSet

Dataset是具有强类型的数据集合,需要提供对应的类型信息。创建一个DataSet吧先1)创建一个样例类scala> case class Person(name: String, age: Long)defined class Person2)创建DataSetscala> val caseClassDS = Seq(Person("Andy", 32)).toDS()caseClassDS: org.apache.spark.sql.Dataset[Person] = [n

2020-06-12 22:09:12 161

原创 SparkSQL之 SparkSQL编程入门

SparkSession 新的起始点在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计

2020-06-12 22:06:00 107

原创 SparkSQL之一张贴告诉你什么是SparkSQL

什么是SparkSQL?Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!SparkSQL的特点1.

2020-06-12 21:55:43 122

原创 Spark消费kafka数据时报错java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord

1.上截图2.问题原因kafkaDatas 是一个 输入流而我却直接调用的print方法 所以出现了 序列化异常3.解决方案应当遍历,获取流中的数据value

2020-04-15 23:02:12 409

原创 SparkCore之一张贴带你领悟RDD相关概念关系

输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每...

2020-04-09 20:50:51 88

原创 SparkCore之RDD广播变量与累加器
原力计划

累加器累加器用来对信息进行聚合,通常在向 Spark传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。系统累加器针对一个输入的日志文件,如果我们想计算文件...

2020-04-09 20:48:58 76

原创 SparkCore之数据的读取与保存
原力计划

Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存Text文件1)数据读取:textFile(String)scala> val hdfsFile = sc.textFile(...

2020-04-09 20:45:59 161

原创 SparkCore之键值对RDD数据分区器
原力计划

Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:0~numPartitions...

2020-04-09 20:40:34 56

原创 SparkCore之RDDCheckPoint机制

Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能。为当前RDD...

2020-04-09 20:28:08 62

原创 SparkCore之RDD缓存

RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存存储一份,Spark的存储级别...

2020-04-09 20:25:46 71

原创 SparkCore之RDD依赖
原力计划

1 LineageRDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个HDFS文件并将其中内容映射成一个个元组scala> val wordAndOne = s...

2020-04-09 20:09:53 75

原创 SparkCore之RDDAPI编程
原力计划

编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运...

2020-04-09 20:02:23 90

原创 SparkCore之RDD的特点

RDD特点RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系。分区RDD逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函数得到每个分区的数据。...

2020-04-09 18:14:34 74

原创 sparkCore之什么是RDD

​​​​​​​什么是RDD●为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种...

2020-04-09 17:53:21 63

原创 使用scala编写第一个spark程序

pom.xml<!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repositories> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexu...

2020-04-03 12:01:54 328

原创 Spark参数详解

spark-shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习测试时使用!●示例spark-shell可以携带参数spark-shell --master local[N] 数字N表示在本地模拟N个线程来运行当前任务spark-shell --master local[*] 表示...

2020-04-03 11:58:14 106

原创 spark安装之on yarn集群模式

●官方文档http://spark.apache.org/docs/latest/running-on-yarn.html准备工作1.安装启动Hadoop(需要使用HDFS和YARN,已经ok)2.安装单机版Spark(已经ok)注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN,所以需要一个...

2020-04-03 11:56:02 89

原创 spark安装之standalone-HA高可用模式

原理Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:1.基于文件系统的单点恢复(Single-Node Recovery with Local File System)–只能用于开发或测试环境。2.基于zookeeper...

2020-04-03 11:53:00 169

原创 spark安装之Standalone集群模式

集群角色介绍Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型,master是集群中含有master进程的节点slave是集群中的worker节点含有Executor进程●Spark架构图如下...

2020-04-03 11:49:39 147

原创 spark环境安装之local本地模式-Spark初体验

官方下载地址:官方下载博主百度云下载Spark安装包 提取码:2uuf提取码:2uuf1.上传安装,解压●解压重命名cd /export/serverstar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgzmv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark●注意:如果有权限问题,可以修改为root,方便学习时操作,实际中使...

2020-04-03 11:44:52 202

原创 spark入门篇之什么是Spark
原力计划

Spark官方介绍●Spark是什么Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。●官网http://spark.apache.orghttp://spark.apachecn.org​​...

2020-04-03 11:34:51 150 1

原创 kafka消费者无法消费(读取offset文件IO异常)

异常信息 ERROR [ReplicaManager broker=2] Error while making broker the leader for partition Topic: __consumer_offsets; Partition: 41; Leader: None; AssignedReplicas: ; InSyncReplicas: in dir None (kafka...

2020-04-01 10:16:14 410

原创 kafka必背的知识点

1.什么是kafka是一个分布式,多分区的,多副本的,多订阅者的消息发布订阅系统。2、kafka的使用场景应用耦合异步处理限流削峰消息驱动的系统3.kafka优缺点优点:可靠性强(分布式-分区-副本)、扩展性强(可伸缩)、性能高(数据读写)、耐用性强(数据持久化)、时效性强。 缺点:由于是批量发送,数据并非真正的实时。 ...

2020-03-24 06:29:48 138

原创 一张图来分析kafka必备的知识点

kafka知识点汇总这张图中包含的知识点:1、Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper2、每个消费者都必须属于一个消费组,一个组内的消费者可以多个。3、一个Topic可以有0到多个多个分区(Partition)4、一个分区可以有0到多个segment。5、每个segment可以有由一个log...

2020-03-23 15:49:16 4023

原创 kafka消息不丢失制

1、生产者生产数据不丢失1.1、生产者数据不丢失过程图说明:有多少个分区,就启动多少个线程来进行同步数据1.2、发送数据方式可以采用同步或者异步的方式-过程图可以采用同步或者异步的方式同步:发送一批数据给kafka后,等待kafka返回结果1、生产者等待10s,如果broker没有给出ack相应,就认为失败。2、生产者重试3次,如果还没有相应,就报错异步:发送一批数据给k...

2020-03-23 15:47:09 4001

原创 kafka的log-存储机制

1、kafka中log日志目录及组成kafka在我们指定的log.dir目录下,会创建一些文件夹;名字是【主题名字-分区名】所组成的文件夹。 在【主题名字-分区名】的目录下,会有两个文件存在,如下所示:#索引文件00000000000000000000.index#日志内容0000000000000000000.log在目录下的文件,会根据log日志的大小进行切分,.log文件的大小...

2020-03-23 15:44:19 4027

原创 kafka的JavaAPI操作
原力计划

1、创建maven工程并添加jar包创建maven工程并添加以下依赖jar包的坐标到pom.xml<dependencies><!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients --><dependency> <groupId>org.apach...

2020-03-23 15:39:26 4022

原创 kafka集群基本操作

1、创建topic创建一个名字为test的主题, 有三个分区,有两个副本node09执行以下命令来创建topic cd /export/servers/kafka_2.11-1.0.0bin/kafka-topics.sh --create --zookeeper node09:2181 --replication-factor 2 --partitions 3 --topic test...

2020-03-23 15:31:55 60

原创 Kafka集群搭建

1、初始化环境准备安装jdk,安装zookeeper并保证zk服务正常启动2、下载安装包并上传解压通过以下地址进行下载安装包node09执行以下命令,下载并解压cd /export/softwareswget http://archive.apache.org/dist/kafka/1.0.0/kafka_2.11-1.0.0.tgztar –zxvf kafka...

2020-03-23 15:29:11 3990

原创 kafka主要组件说明

1、kafka当中的producer说明producer主要是用于生产消息,是kafka当中的消息生产者,生产的消息通过topic进行归类,保存到kafka的broker里面去2、kafka当中的topic说明1、kafka将消息以topic为单位进行归类2、topic特指kafka处理的消息源(feeds of messages)的不同分类。3、topic是一种分类或者...

2020-03-23 15:26:01 4021

原创 kafka的架构介绍

1、生产者API允许应用程序发布记录流至一个或者多个kafka的主题(topics)。2、消费者API允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流。3、StreamsAPI允许应用程序充当流处理器(streamprocessor),从一个或者多个主题获取输入流,并生产一个输出流到一个或者多个主题,能够有效的变化输入流为输出流。4、ConnectAP...

2020-03-23 15:23:00 4086

原创 kafka的基本介绍

1、kafka的基本介绍官网:http://kafka.apache.org/kafka是一个分布式,分区的,多副本的,多订阅者的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等。最初由linkedin公司开发,使用scala语言编写。Kafka is a distributed,partitioned,replicated commit lo...

2020-03-23 15:21:05 4110

原创 一张贴告诉你什么是消息队列

1、消息队列的介绍消息(Message):是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在...

2020-03-23 15:20:21 3988

原创 hadoop配置HA详细教程

准备工作1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等7.注意集群时间要同步集群部署节点角色的规划(3节点)------------------server01 namenode resourcemanager zkfc nodemanager datanod...

2020-03-23 15:15:21 4064

原创 Yarn 调度器Scheduler

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn中有三种调度器可以选择:...

2020-03-23 14:56:18 4002

原创 Yarn三大组件介绍及运行流程

Yarn三大组件ResourceManagerResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。 NodeManager以心跳的方式向ResourceManager汇报资源使用情况(目前主要是CPU和内存的使用情况)。RM只接受NM的资源回报信息,对于具体的资源处理则交给NM自己处理。 YARN Scheduler根据application的请求为其...

2020-03-23 14:44:36 4124

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除