289227365@qq.com-CSDN博客

原创 Apache Hadoop 工具

一、生态工具（一）Hive技术1.什么是Hivehive是facebook开源，并捐献给了apache组织，作为apache组织的顶级项目。 hive.apache.orghive是一个基于大数据技术的数据仓库技术 DataWareHouse (数仓)数据库 DataBase数据量级小，数据价值高数据仓库 DataWareHouse数据体量大，数据价值低底层依附是HDFS,M...

2019-07-29 08:34:00 261

原创 Spring Cloud

一、前言为何要学习Spring Cloud单一应用架构：主要解决ORM 数据库访问层。垂直应用架构：解决分层问题，实现应用的分层开发，提升开发效率。分布式应用架构：解决系统间调用问题，引发了SOA（面向服务开发）架构新潮。SOA治理（Macro Service治理）：对面向服务开发和治理同时提出新的挑战，要求应用能够做到容易部署、智能路由、服务负载均衡、熔断等要求，能够做到对服务的...

2019-07-26 17:12:13 320

原创 Git

一、版本控制系统概述版本控制系统（VCS）：是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统，好处：备份、历史记录、记录恢复、多端共享、协同开发等。企业中主流的版本控制系统：集中式版本控制系统（CVCS），如：SVN分布式版本控制系统（DVCS），如：GitGit的前世今生Linus Torvalds 1991年21岁在Unix操作系统的基础上开发...

2019-07-25 23:03:55 146

原创 Redis

一、NoSql简介NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”, 泛指非关系型的数据库Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。1.为什么会出现Nosql这个技术门类随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题...

2019-07-21 21:11:27 157

一、概述Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前...

2019-07-10 20:36:33 265

原创 ElasticSearch

ElasticSearch1. 什么是RestFulREST : 表现层状态转化(Representational State Transfer)，如果一个架构符合REST原则，就称它为 RESTful 架构风格。资源: 所谓"资源"，就是网络上的一个实体，或者说是网络上的一个具体信息表现层 :我们把"资源"具体呈现出来的形式，叫做它的"表现层"(Representation)。状态转...

2019-07-10 20:19:35 233

原创 Apache Kafka Streams

Kafka Streams流计算定义一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。批量处理模型中，一...

2019-07-03 20:29:18 185

原创 Apache Kafka

Apache Kafka 消息队列消息队列消息：系统间通信介质，存在形式多样化一般使用字节序列化、Json、xml等队列：先进先出 FIFO 数据结构消息队列(Message Queue)：可以用于系统间通讯的一个组件-middle ware（中间件），该组件可以用于做消息缓冲的中间件（持久化）解决一些并发处理、数据库缓冲等实现对高并发的业务场景的削峰填谷。消息中间件：ActiveM...

2019-07-03 20:20:52 129

原创 Apache Hadoop

一、大数据（Big Data）引言1.什么是大数据体量很大的数据，起步存储当量为TB级或者日均数据增长GB级。在海量数据下，可以进行分析，挖掘，进而发现数据内在的规律，从而为企业或者国家创造价值。2.大数据的特点（4v特性）（1） Volume:体量大（2）Variety:样式多数据种类多1.1 结构化数据1.2.半结构化数据：json、xml1.3.非结构化数据：图片、音频...

2019-07-03 20:04:49 456

原创配置文件大全

Spring和SpringMVC1.pom.xml<dependency> <groupId>org.springframework</groupId> <artifactId>spring-core</artifactId> <ve...

2019-07-03 20:03:40 1393

原创 Apache Spark

Apache Spark一、背景介绍Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于DAG 任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一...

2019-07-03 18:48:04 694

原创 Scala

一、Scala语言介绍Scala是一门多范式的编程语言,同时支持面向对象和面向函数编程风格。它以一种优雅的方式解决现实问题。虽然它是强静态类型的编程语言，但是它强大的类型推断能力，使其看起来就像是一个动态编程语言一样。Scala语言最终会被翻译成java字节码文件，可以无缝的和JVM集成，并且可以使用Scala调用java的代码库。除了Scala编程语言自身的特性以外，目前比较流行的Spark计...

2019-06-27 17:26:16 228

原创 Apache Storm

Apache Storm版本号：2.0.0官网：http://storm.apache.org/releases/2.0.0/index.html一、基础篇（一）什么是StormApache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流，实时处理Hadoop为批处理所做的工作。Storm很简单，可以与任何编程语言一起使用，并且使用起来很有趣！St...

2019-06-23 22:13:37 1130 1

weixin_44443462的博客