- 博客(19)
- 资源 (17)
- 收藏
- 关注
原创 流计算框架 Flink 与 Storm 的性能对比
1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍受关注,...
2018-12-29 14:25:16 436
原创 Sqoop核心原理及应用详解
Sqoop依赖与hadoop 数据的一方,存储在hdfs 底层的数据传输实现map/reduce yarn 只有map任务 因为官网sqoop没有hadoop2.5对应的版本,要根据hadoop的版本进行编译(好像不用对应版本也可以,不过建议最好对应版本)。所以这里使用CDH 5.3.6。比较稳定。 去Cloudera的官网下载相应的发布版本号 http;//archi...
2018-12-29 09:51:36 2108
原创 Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:这里写图片描述从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。(一)Flume架构介绍1、Flume的概念这里写图片描述...
2018-12-28 17:46:37 259
原创 kafka核心原理及优化措施
一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?首先让我们看几个基本的消息系统术语:Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成为consumer.Kafka以集群的方式运行,可以由一...
2018-12-28 15:33:09 606
原创 Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 ...
2018-12-28 11:42:17 322
原创 MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。Shuffle缓存流程:shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task...
2018-12-28 09:59:41 250 1
原创 Hbase核心原理架构解析及优化措施
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建大规模结构化的存储集群。HBase的目标是存储并处理大型数据,具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。与MapReduce的离线批处理计算框架不同,HBase是一个可以随机访问的存储和检索数据平台,弥补了HDFS不能随机访问数据的缺陷,适合实...
2018-12-27 13:45:39 902 1
原创 Hive的核心原理以及查询优化
Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富最全的SQL语法,也拥有最慢最稳定的执行。是目前Hadoop上几乎标准的ETL和数据仓库工具。Hive这个特点与其它AdHo...
2018-12-26 15:38:41 1782
原创 史上最全Zookeeper核心原理
1、Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 » Observer可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的...
2018-12-24 16:43:40 1242 2
原创 MongoDB 常用命令
一、常用命令命令 参考释义help 显示基本操作命令db.help() 显示数据库操作命令db.collection.help() 显示集合操作命令sh.help() 显示数据库分片操作命令rs.help() 显示副本集操作命令help admin 显示管理员操作命令help con...
2018-12-21 14:38:25 1089
原创 MongoDB基本知识
2.初识MongoDB2.1简介 通过上面的了解可以知道,MongoDB属于NoSql的一种,且是属于NoSql中的基于分布式文件存储的文档型数据库。由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似...
2018-12-21 14:29:49 382
原创 session原理演变 微服务架构下分布式Session管理
一、应用架构变迁下的Session管理1.1 单体架构1.2 分布式架构1.3 微服务架构二、微服务架构下分布式Session管理2.1 Session存储介质2.2 管理方案实现三、微服务架构下分布式Session管理方案四、总结 应用架构变迁下的Session管理 Session一词直译为“会话”,意指有始有终的一系列动作/消息。Session是...
2018-12-20 13:20:53 258
原创 Springboot中SpringSession存储到MongoDB
0:session和cookie简介session和cookie简介 由于http协议是无状态的协议,为了能够记住请求的状态,于是引入了Session和Cookie的机制。我们应该有一个很明确的概念,那就是Session是存在于服务器端的,它是由tomcat管理的,存在于tomcat的内存中。而Cookie则是存在于客户端,更方便理解的说法,可以说存在于浏览器。http协议允许从服务器返...
2018-12-20 10:17:57 1324 1
转载 MongoDB + Spark: 完整的大数据解决方案
Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式。当需要处理的...
2018-12-13 18:48:40 2766
原创 使用Morphia的BasicDAO来访问Mongodb
1:简介 DAO封装了存储和调用的代码,控制类只要注入一个DAO对象,使用它就不需要关心数据持久化和恢复了。 Morphia基于DAO接口提供了BasicDAO实现类,它使用Datastore对象来存储和查询POJO对象,可以通过BasicDAO的方法来create/update, read, and delete 对象,可以参考它提供的例子和模式。意味着你...
2018-12-13 16:55:14 653
原创 Storm 简介及原理
一、Storm简介Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm 很简单,可用于任意编程语言。Apache Storm 采用 Clojure 开发。Storm 有很多应用场景,包括实时数据分析、联机学习、持续计算、分布式 RPC、ETL 等。hadoop(大数据...
2018-12-07 15:18:20 795
原创 VsCode搭建springboot 并配置maven环境
安装如下两个主要扩展即可,这两个扩展已关联java项目开发主要使用的maven、springboot等所需要的扩展。开始步骤:在 Visual Studio Code 中打开扩展视图(Ctrl+Shift+X)。 输入“java”搜索商店扩展插件。 找到并安装 Java Extension Pack (Java 扩展包),如果你已经安装了 Language Support for ...
2018-12-07 13:43:19 52787 1
分类算法朴素贝叶斯-NB.pdf
2020-02-20
巴豆大数据团队讲师课件Yarn.pdf
2020-02-20
巴豆大数据团队讲师课件Hbase.pdf
2020-02-19
卸载Windows10deuninstall_edge.zip
2020-02-12
运行维护管理体系和制度规范.doc
2020-01-07
cmmi3完整版全套模板最新版.zip
2019-12-16
CMMI3(1-21章节).zip
2019-12-16
GAT 1400-2017公安视频图像信息应用系统.zip
2019-12-16
keepalived2.0.8
2019-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人