自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Apache Hadoop 工具

一、生态工具(一)Hive技术1.什么是Hivehive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目。 hive.apache.orghive是一个基于大数据技术的数据仓库技术 DataWareHouse (数仓)数据库 DataBase数据量级小,数据价值高数据仓库 DataWareHouse数据体量大,数据价值低底层依附是HDFS,M...

2019-07-29 08:34:00 231

原创 Spring Cloud

一、前言为何要学习Spring Cloud单一应用架构 :主要解决ORM 数据库访问层。垂直应用架构 : 解决分层问题,实现应用的分层开发,提升开发效率。分布式应用架构:解决系统间调用问题,引发了SOA(面向服务开发)架构新潮。SOA治理(Macro Service治理):对面向服务开发和治理同时提出新的挑战,要求应用能够做到容易部署、智能路由、服务负载均衡、熔断等要求,能够做到对服务的...

2019-07-26 17:12:13 281

原创 Git

一、版本控制系统概述版本控制系统(VCS):是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统,好处:备份、历史记录、记录恢复、多端共享、协同开发等。企业中主流的版本控制系统:集中式版本控制系统(CVCS),如:SVN分布式版本控制系统(DVCS),如:GitGit的前世今生Linus Torvalds 1991年21岁在Unix操作系统的基础上开发...

2019-07-25 23:03:55 122

原创 Redis

一、NoSql简介NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”, 泛指非关系型的数据库Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。1.为什么会出现Nosql这个技术门类随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题...

2019-07-21 21:11:27 128

原创 Apache Flume

一、概述Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前...

2019-07-10 20:36:33 238

原创 ElasticSearch

ElasticSearch1. 什么是RestFulREST : 表现层状态转化(Representational State Transfer),如果一个架构符合REST原则,就称它为 RESTful 架构风格。资源: 所谓"资源",就是网络上的一个实体,或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式,叫做它的"表现层"(Representation)。状态转...

2019-07-10 20:19:35 217

原创 Apache Kafka Streams

Kafka Streams流计算定义一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一...

2019-07-03 20:29:18 164

原创 Apache Kafka

Apache Kafka 消息队列消息队列消息:系统间通信介质,存在形式多样化一般使用 字节序列化、Json、xml等队列:先进先出 FIFO 数据结构消息队列(Message Queue):可以用于系统间通讯的一个组件-middle ware(中间件),该组件可以用于做消息缓冲的中间件(持久化)解决一些 并发处理、数据库缓冲等实现对高并发的业务场景的削峰填谷。消息中间件:ActiveM...

2019-07-03 20:20:52 116

原创 Apache Hadoop

一、大数据(Big Data)引言1.什么是大数据体量很大的数据,起步存储当量为TB级或者日均数据增长GB级。在海量数据下,可以进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值。2.大数据的特点(4v特性)(1) Volume:体量大(2)Variety:样式多 数据种类多1.1 结构化数据1.2.半结构化数据:json、xml1.3.非结构化数据:图片、音频...

2019-07-03 20:04:49 424

原创 配置文件大全

Spring和SpringMVC1.pom.xml<!-- Spring和SpringMVC相关依赖 --><dependency> <groupId>org.springframework</groupId> <artifactId>spring-core</artifactId> <ve...

2019-07-03 20:03:40 1288

原创 Apache Spark

Apache Spark一、背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一...

2019-07-03 18:48:04 655

原创 Scala

一、Scala语言介绍Scala是一门多范式的编程语言,同时支持面向对象和面向函数编程风格。它以一种优雅的方式解决现实问题。虽然它是强静态类型的编程语言,但是它强大的类型推断能力,使其看起来就像是一个动态编程语言一样。Scala语言最终会被翻译成java字节码文件,可以无缝的和JVM集成,并且可以使用Scala调用java的代码库。除了Scala编程语言自身的特性以外,目前比较流行的Spark计...

2019-06-27 17:26:16 205

原创 Apache Storm

Apache Storm版本号:2.0.0官网:http://storm.apache.org/releases/2.0.0/index.html一、基础篇(一)什么是StormApache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实时处理Hadoop为批处理所做的工作。Storm很简单,可以与任何编程语言一起使用,并且使用起来很有趣!St...

2019-06-23 22:13:37 899 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除