大数据开发
文章平均质量分 92
目前大数据开发以中间件的身份,依附着大数据算法,将人工智能推向了一个新高度,云计算也成为了我们的新词汇,在这方面,随着国外先进技术的引进,让我们舍弃了从前的mr,熟悉了流行的spark和flink等流失计算框架,技术的更新迭代速度很快,大数据开发扮演着重要的角色!
唉.
后端、云计算、大数据
展开
-
解决:IDEA中import kafka.serializer.StringDecoder导入报红的问题
解决:IDEA中import kafka.serializer.StringDecoder导入报红的问题kafka的版本是2.1.1,spark-streaming-kafka-0-8_2.11在SparkStreaming整合Kafka时,采用direct方法。在手动导入kafka.serializer.StringDecoder时,一直报红。解决方法一:手动在代码头部添加import ...原创 2019-08-25 21:58:14 · 1859 阅读 · 0 评论 -
SparkStreaming整合Kafka&Flume
前面说过SparkStreaming分别整合Flume和Kafka,但是在实际开发中往往需要的是SparkStreaming整和Kafka和Flume一起使用。。。下面就来看一下如何使用。。。首先来看一下整体的架构图:外部的软件实时产生一些数据,然后使用Flume实时对这些数据进行采集,之后再利用KafkaSink将数据送到Kafka,做到一个缓存的作用,然后这些消息队列再作为Spark...原创 2019-08-18 17:11:39 · 257 阅读 · 0 评论 -
SparkStreaming整合Kafka
文章目录案例一、基于基于Receiver-based Approach案例二、Direct Approach前面说过SparkStreaming可以接受的一种高级数据源——Flume,今天来介绍另外一种高级数据源——Kafka。。。Kafka是一种基于消息发布订阅的消息队列,并且是分布式的,分区有副本的日志服务但是在0.8-0.10出现了一些更新上的改变,具体情况如下:本人使用的是0....原创 2019-08-18 11:05:23 · 117 阅读 · 0 评论 -
SparkStreaming整合Flume
文章目录案例一、Flume-style Push-based Approach案例二、Push-based Approach using a Custom SinkSparkStreaming整合Flume有两种方式,下面会一一列举这两个Demo案例一、Flume-style Push-based Approach首先来看一下官方文档,之前所介绍的socket或者fileSystem都属于基...原创 2019-08-17 10:30:33 · 239 阅读 · 0 评论 -
SparkStreaming应用案例
本文将会介绍四个Demo案例,分别是updateStateByKey算子的使用,SparkStreaming写入MySQL,窗口函数使用和黑名单过滤。。。案例一、updateStateByKey算子的使用首先先看一下updateStateByKey的介绍这个算子可以在保持任意状态下去更新信息,但是有两个要求:状态可以是任意类型定义状态的更新,要用函数指定更新前的状态和更新后的状态...原创 2019-08-16 21:39:20 · 820 阅读 · 0 评论 -
大数据这么多技术,到底都能用在什么场景里
在大数据开发中会接触到很多的集群,各种各样的技术,那么这些技术如何组合来完成架构呢???大数据技术分类:存储、计算、资源管理最基本的存储技术是HDFS。比如在企业应用中,会把通过各种渠道得到的数据,比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据, 统统存储到HDFS上,供后续的统一使用。HBase作为NoSQL类非关系数据库的代表性产品,从分类上可以划分到存储...原创 2019-08-05 12:32:56 · 609 阅读 · 0 评论 -
ZooKeeper是如何保证数据一致性的
前面在讲HDFS和HBase架构分析的时候就提到了Zookeeper。在分布式系统里的多台服务器要对数据状态达成一致,其实是一件很有难度和挑战的事情,因为服务器集群环境的软硬件故障随时会发生,多台服务器对一个数据的记录保持一致,需要一些技巧和设计。今天要讨论的是分布式系统一致性与Zookeeper的架构通过之前的文章大家应该已经了解了HDFS为了保证整个集群的高可用,需要部署两台NameNod...原创 2019-08-05 11:03:02 · 13149 阅读 · 1 评论 -
流式计算的代表:Storm、Flink、SparkStreaming
目前业内比较知名的大数据流计算框架有Storm、Spark Streaming、Flink,接下来逐一看看它们的架构原理和使用方法。Storm其实大数据实时处理的需求很早就存在,那个时候主要使用MQ来实现大数据的实时处理,如果处理起来比较复杂,那么就需要很多个消息队列,将实现不同业务逻辑的生产者和消费者串起来。架构图如下:图中的消息队列负责完成数据的流转;处理逻辑既是消费者也是生产者,也就...原创 2019-08-03 21:52:38 · 2446 阅读 · 0 评论 -
BigTable的开源实现:HBase
在计算机数据存储领域,一直是关系型数据库(RDBMS)的天下,以至于在传统企业的应用领域,许多应用系统设计都是面向数据库设计,也就是先设计数据库然后设计程序,,从而导致关系模型绑架对象模型。为了解决关系数据库无法处理海量数据的不足,于是就有了NoSQL的概念。NoSQL主要指非关系的、分布式的、支持海量数据存储的数据库设计模式。今天要说的就是HBase。HBase就是专门用来存储海量数据的,...原创 2019-08-03 10:24:56 · 1369 阅读 · 0 评论 -
Hive是如何让MapReduce实现SQL操作的
前面我们说过MapReduce的运算流程,整体架构方法,JobTracker与TaskTracker之间的通信协调关系等等。虽然知道我们只需要自己完成Map和Reduce就可以实现MapReduce的运算,但是还有很多人习惯使用SQL进行数据分析,MapReduce编程不是那么容易,因此就有了Hive的存在。首先看看如何用MapReduce实现SQL数据分析。MapReduce实现SQL的原理...原创 2019-08-02 13:37:40 · 1627 阅读 · 0 评论 -
为什么我们管Yarn叫作资源调度框架
Hadoop是由三部分组成的,之前说的MapReduce,还有分布式文件存储系统HDFS,和分布式集群资源调度框架Yarn。本篇专栏将主要讲一下Yarn框架,它使Hadoop从一个单一的大数据计算引擎,成为一个集存储、计算、资源管理为一体的完整大数据平台,进而发展处自己的生态体系。Yarn发展首先来看一下MapReduce的架构思路:MapReduce最核心的就是JobTracker和Task...原创 2019-08-01 23:14:56 · 322 阅读 · 0 评论 -
MapReduce如何让数据完成一次旅行
大家应该知道MapReduce不仅仅是一个分布式计算的框架而且还是一种算法,常规的算法中,我们也可以使用这种模型去进行运算,也就是Mapper-Reducer过程,但是MapReduce还有很多看不见的过程,也是值得让我们去研究一下的,比如说shuffle,就是其中相当关键的一个环节,大家都知道这是混洗但是混洗的具体过程是什么,又是一个问题,因此本篇文章将会主要讲述一下MapReduce的过程。...原创 2019-07-30 21:19:27 · 149 阅读 · 0 评论 -
流式处理术语解释:Exactly-once与Effectively-once
分布式事件处理现在已经逐渐成为大数据领域的热点话题,主要使用的流处理引擎包括Storm、Flink、Spark(Spark Streaming)、HERON等等。其中“严格一次(Exactly-once)”是很多引擎追求的目标之一,很多引擎宣称可以提供“严格一次”的处理语义。但是“严格一次”具体指的是什么,需要具备哪些能力,当SPE宣称可以支持时这实际上意味着什么对于这些问题还有很多歧义和误导。...原创 2019-10-11 13:49:41 · 563 阅读 · 0 评论