数据带你飞-CSDN博客

原创 3.大数据技术之Flink（基础篇）

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算引擎分成了4 代，当然，也有很多人不会认同。我们先姑且这么认为和讨论。

2023-05-06 10:49:42 612

原创 2.大数据技术之Spark（基础篇）

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkCore、SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。

2023-05-06 10:40:26 1093

原创 1.大数据技术之Hadoop（基础篇）

hadoop的定义：hadoop是一个分布式存储和分布式计算的框架。分布式存储：是一个数据存储技术，将数据存储在多个服务上的（存储单元）磁盘空间中。目前解决的是大量数据存储的问题。分布式计算：是一个计算科学技术，将一个大量的计算过程拆分成弱干个小的任务，由多个节点执行，最后做数据汇总。Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2023-05-06 09:57:20 896

原创 10.大数据技术之Flink

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。Spark掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算引擎分成了4代，当然，也有很多人不会认同。我们先姑且这么认为和讨论。Flink版本Kafka版本1.12.X2.4.11.11.X。......

2022-07-17 08:31:47 4843

原创 09.大数据技术之Spark

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkCore、SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而

2022-07-13 14:07:38 9317

原创 08.大数据技术之Kafka

消息（Message）是指在应用之间传送的数据，消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列（Message Queue）是一种应用间的通信方式，消息发送后可以立即返回，有消息系统来确保信息的可靠专递，消息发布者只管把消息发布到MQ中而不管谁来取，消息使用者只管从MQ中取消息而不管谁发布的，这样发布者和使用者都不用知道对方的存在。RabbitMQ 2007年发布，是一个在AMQP(高级消息队列协议)基础上完成的，可复用的企业消息系统，是当前最主流的消息中间件之一。Acti

2022-07-11 22:47:26 760

原创 07.大数据技术之Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。Flume支持定制各类数据发送方，用于收集各类型数据；同时，Flume支持定制各种数据接受方，用于最终存储数据。一般的采集需求，通过对flume的简单配

2022-07-11 22:42:15 493

原创 06.大数据技术之Hbase

hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）Hbase中支持的数据类型：byte[]。HBase的原型是Google的BigTab

2022-07-11 14:17:21 1556

原创 05.大数据技术之zookeeper

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。诸如：统一命名服务(dubbo)、分布式配置管理(solr的配置集中管理)、分布式消息队列（sub/pub）、分布式锁、分布式协

2022-07-11 14:13:02 627

原创 04.大数据技术之Hive

hive

2022-07-05 17:32:52 714

原创 03.大数据技术之Hadoop（02）

03.hadoop02

2022-07-05 11:47:41 504

原创 02.大数据技术之Hadoop（01）

02.hadoop01

2022-07-05 11:32:36 443

原创 01.大数据概述与Linux集群环境准备

唐山师范学院

2022-07-05 11:09:14 574

原创盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后，Ambari 正式退役（转）

Apache Ambari 正式退役正所谓几家欢乐几家愁，2022 年初，又一款顶级 Apache 大数据项目，正式宣告退役：Apache Ambari 于 2022-01 悄然宣布，项目不再维护，正式进入退役阶段！笔者听闻该消息，恰逢虎年春节之际，虽然对 Ambari 的退役早有预期，但由于早年与 Ambari 颇有渊源，还是不免唏嘘一场！所以谨以一篇博文，纪念下 Apache Ambari!忆 Ambari 往昔，唏嘘一下遥想当年，大概 2015 年初，大数据三驾马车（Cloudera.

2022-02-22 10:01:15 1036

原创 day15_Flink05

6.9 Flink 的状态管理我们前面写的word count 的例子，没有包含状态管理。如果一个task 在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink 引入了state 和checkpoint。【因此可以说flink 因为引入了state 和checkpoint 所以才支持的exactly once】首先区分一下两个概念state state 一般指一个具体的t

2022-02-18 12:27:11 414

原创 day14_Flink04

6.8 Flink 的容错6.8.1 Checkpoint 介绍 Checkpoint 是Flink 实现容错机制最核心的功能，也是flink 的四大基石之一，它能够根据配置周期性地基于Stream 中各个Operator/task 的状态来生成快照，从而将这些状态数据定期持久化存储下来，当Flink 程序一旦意外崩溃时，重新运行程序时可以有选择地从这些快照进行恢复，从而修正因为故障带来的程序数据异常。快照的核心概念之一是barrier。这些barrier 被注入数据流并与记录一起作为数据流的一

2022-02-18 12:27:00 424

原创 day13_Flink03

6、DataStream API 开发6.1 入门案例6.1.1 Flink 流处理程序的一般流程获取Flink 流处理执行环境构建source数据处理构建sink6.1.2 示例编写Flink 程序，用来统计单词的数量。6.1.3 步骤获取Flink 批处理运行环境构建一个socket 源使用flink 操作进行单词统计打印6.1.4 参考代码object StreamWordCount { def main(args: Arr

2022-02-18 12:26:50 588

原创 day12_Flink02

5.3 DateSet 的TransformationTransformationDescriptionMap对集合元素，进行一一遍历处理 data.map { x => x.toInt }FlatMap一个数据元生成多个数据元（可以为 0） data.flatMap { str => str.split(" ") }MapPartition函数处理包含一个分区所有数据的“迭代器” ，可以生成任意数量的结果值。每个分区

2022-02-18 12:26:30 512

原创 day10.scala补充

集合计算基础函数（1）求和（2）求乘积（3）最大值（4）最小值（5）排序package cn.tedu.scalacollection/** * 集合计算基本函数 */object CollectionSimpleFunctionTest { def main(args: Array[String]): Unit = { val list = List(1, 3, 4, 2, 5) // （1）求和 var sum = 0L for (elem

2022-02-18 12:26:09 315

原创 day11_Flink01

1、Flink 简介1.1 Flink 的引入这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算引擎分成了4 代，当然，也有很多人不会认同。我们先姑且这么认为和讨论。首先第一代的计算引

2022-02-18 12:25:51 1235

原创 day09_scala

1.前言为什么要学习Scala分布式高并发语言Go、R、Erlang等等为何选择Scala？Spark是大数据处理的核心方式，用scala语言编写！Kafka分布式发布订阅消息系统，由LinkedIn捐给Apache，以极高的吞吐量著称，是目前最火爆的MQ，用scala语言编写！Flink最新一代分布式海量数据计算框架，Alibaba收购并开源，自己开发Blink分支，Scala语言编写！为什么学习scala1.基于强大的java基础。（.class文件）2.大数据以及分布式的开发项目中（服

2022-02-14 16:41:28 842

原创 day08_kafka

1、消息队列的介绍消息（Message）是指在应用之间传送的数据，消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列（Message Queue）是一种应用间的通信方式，消息发送后可以立即返回，有消息系统来确保信息的可靠专递，消息发布者只管把消息发布到MQ中而不管谁来取，消息使用者只管从MQ中取消息而不管谁发布的，这样发布者和使用者都不用知道对方的存在。2、常用的消息队列介绍1、RabbitMQRabbitMQ 2007年发布，是一个在AMQP(高级消息队列协议)基础

2022-02-14 16:40:54 2083

原创 day06_dbvis补充

1.dbvis2.下载后安装dbvis3.将hive的目录放在已安装好的dbvis的jdbc的目录下。4.hive-site.xml中增加属性 <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property> <prope

2022-02-14 16:39:57 306

原创 day07_2_hbase

1、HBase基本介绍hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）Hbase中支持的数据类型：byte[]与hadoo

2022-02-14 16:38:35 631

原创 day07_1_zookeeper

1.Zookeeper1.1、zookeeper介绍Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。诸如：统一命名服务(dubbo)、分布式配置管理(solr的配置集中管

2022-02-14 16:38:03 807

原创 day6_离线数据分析

Hive离线分析回顾业务流程[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-740wg3Eo-1644827802066)(day06_离线数据分析.assets/1628589606864.png)]准备搭建环境1.启动Hadoopstart-all.sh2.修改flume配置文件a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sourc

2022-02-14 16:37:05 546

原创 day05_日志接收处理

网站日志分析系统1.数据收集：JS埋点传统埋点方式的缺点：直接嵌入业务系统，代码不好维护，影响业务系统性能。JS埋点优点：日志收集系统与业务系统相互独立，互不影响，不占用业务系统性能,能收集到更多更详细的用户信息。2.日志数据的提交方式Get请求：https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&amp

2022-02-14 16:34:51 478

原创 day04_Flume

Apache Flume1．概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。Flume支持定制各类数据发送方，用于收集各类型数据；同时，Flume支持定制各种数据接受方，用于最终存储数据

2022-02-14 16:33:08 950

原创 day03_Hive

1.Hive简介1.1什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端。1.2为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现

2022-02-14 16:28:22 890

原创 day02_Hadoop

1.分布式文件系统HDFS1.HDFS的来源HDFS:Hadoop Distributed File system(hadoop分布式文件系统)HDFS起源于Google的GFS论文（GFS，Mapreduce，BigTable为google的旧的三驾马车）HBASE（1）发表于2003年10月（2）HDFS是GFS的克隆版（3）易于扩展的分布式文件系统（4）运行在大量普通廉价机器上，提供容错机制（5）为大量用户提供性能不错的文件存取服务2.HDFS的架构图之基础架构[外链图片转

2022-02-14 16:24:45 1582 1

原创 day01_Hadoop

1.课前资料2.课程整体介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nWmhvuqW-1644227398002)(day01_hadoop.assets/1628589606864.png)]3.大数据介绍什么是大数据？简单来说大数据就是海量数据及其处理。大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产（资源）。

2022-02-07 17:50:44 2528

原创六阶段面试题01

六阶段面试题0101.HDFS的读写流程02.Hive的内部组成模块，作用分别是什么03.Hbase详细架构04.Kafka的架构05.Kafka分区和消费组内的消费者之间的关系有哪些情况？06.Kafka如何保证数据不丢失07.Yarn的调度器有哪些？08.Flink time09.Flink 窗口10.Flink watermark 如何处理乱序数据01.HDFS的读写流程02.Hive的内部组成模块，作用分别是什么1．元数据：Metastore元数据包括：表名、表所属的数据库（默认是defau

2021-08-21 21:16:50 956

原创 Spring认证~利用_Profile配置不同的运行环境

Spring提供了@Profile注解来解决程序在不同运行环境时候的配置差别。项目开发时候大多包含：开发、测试、上线运行几个过程，在每个过程中软件的工作环境一般多少有些差别，比如：在开发阶段利用本地数据库、测试阶段采用测试数据库、在上线运行阶段使用生产数据库。这些差别如果采用了手工维护就会存在各种问题：效率低下、容易发生人为因素意外错误。利用Spring提供的@Profile注解就可以定义程序不同的运行场景配置，配置以后在启动程序时候给定不同的启动参数就可以灵活的切换运行场景，不再需要人工干预，这样就可

2021-07-16 18:01:13 194

原创考过spring官方认证弄明白事务传播是怎么回事

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-07-09 09:10:32 291

wzb1983的博客