Hadoop
文章平均质量分 95
Hadoop
数据带你飞
大数据的世界带你飞!!!
展开
-
day07_1_zookeeper
1.Zookeeper1.1、zookeeper介绍Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。 诸如: 统一命名服务(dubbo)、分布式配置管理(solr的配置集中管原创 2022-02-14 16:38:03 · 512 阅读 · 0 评论 -
day15_Flink05
6.9 Flink 的状态管理 我们前面写的word count 的例子,没有包含状态管理。如果一个task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink 引入了state 和checkpoint。 【因此可以说flink 因为引入了state 和checkpoint 所以才支持的exactly once】首先区分一下两个概念state state 一般指一个具体的t原创 2022-02-18 12:27:11 · 287 阅读 · 0 评论 -
day14_Flink04
6.8 Flink 的容错6.8.1 Checkpoint 介绍 Checkpoint 是Flink 实现容错机制最核心的功能,也是flink 的四大基石之一,它能够根据配置周期性地基于Stream 中各个Operator/task 的状态来生成快照,从而将这些状态数据定期持久化存储下来,当Flink 程序一旦意外崩溃时,重新运行程序时可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常。 快照的核心概念之一是barrier。这些barrier 被注入数据流并与记录一起作为数据流的一原创 2022-02-18 12:27:00 · 251 阅读 · 0 评论 -
day13_Flink03
6、DataStream API 开发6.1 入门案例6.1.1 Flink 流处理程序的一般流程获取Flink 流处理执行环境构建source数据处理构建sink6.1.2 示例编写Flink 程序,用来统计单词的数量。6.1.3 步骤获取Flink 批处理运行环境构建一个socket 源使用flink 操作进行单词统计打印6.1.4 参考代码object StreamWordCount { def main(args: Arr原创 2022-02-18 12:26:50 · 418 阅读 · 0 评论 -
day12_Flink02
5.3 DateSet 的TransformationTransformationDescriptionMap对集合元素, 进行一一遍历处理 data.map { x => x.toInt }FlatMap一个数据元生成多个数据元(可以为 0) data.flatMap { str => str.split(" ") }MapPartition函数处理包含一个分区所有数据的“迭代器” , 可以生成任意数量的结果值。 每个分区原创 2022-02-18 12:26:30 · 299 阅读 · 0 评论 -
day09_scala
1.前言为什么要学习Scala分布式高并发语言Go、R、Erlang等等为何选择Scala?Spark是大数据处理的核心方式,用scala语言编写!Kafka分布式发布订阅消息系统,由LinkedIn捐给Apache,以极高的吞吐量著称,是目前最火爆的MQ,用scala语言编写!Flink最新一代分布式海量数据计算框架,Alibaba收购并开源,自己开发Blink分支,Scala语言编写!为什么学习scala1.基于强大的java基础。(.class文件)2.大数据以及分布式的开发项目中(服原创 2022-02-14 16:41:28 · 529 阅读 · 0 评论 -
day08_kafka
1、消息队列的介绍消息(Message)是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,有消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在。2、常用的消息队列介绍1、RabbitMQRabbitMQ 2007年发布,是一个在AMQP(高级消息队列协议)基础原创 2022-02-14 16:40:54 · 1858 阅读 · 0 评论 -
day07_2_hbase
1、HBase基本介绍hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)Hbase中支持的数据类型:byte[]与hadoo原创 2022-02-14 16:38:35 · 442 阅读 · 0 评论 -
day6_离线数据分析
Hive离线分析回顾业务流程[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-740wg3Eo-1644827802066)(day06_离线数据分析.assets/1628589606864.png)]准备搭建环境1.启动Hadoopstart-all.sh2.修改flume配置文件a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = avroa1.sourc原创 2022-02-14 16:37:05 · 423 阅读 · 0 评论 -
day05_日志接收处理
网站日志分析系统1.数据收集:JS埋点传统埋点方式的缺点:直接嵌入业务系统,代码不好维护,影响业务系统性能。JS埋点优点:日志收集系统与业务系统相互独立,互不影响,不占用业务系统性能,能收集到更多更详细的用户信息。2.日志数据的提交方式Get请求:https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&原创 2022-02-14 16:34:51 · 392 阅读 · 0 评论 -
day03_Hive
1.Hive简介1.1什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端。1.2为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现原创 2022-02-14 16:28:22 · 693 阅读 · 0 评论 -
day01_Hadoop
1.课前资料2.课程整体介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nWmhvuqW-1644227398002)(day01_hadoop.assets/1628589606864.png)]3.大数据介绍什么是大数据?简单来说大数据就是海量数据及其处理。大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。原创 2022-02-07 17:50:44 · 2121 阅读 · 0 评论 -
day02_Hadoop
1.分布式文件系统HDFS1.HDFS的来源HDFS:Hadoop Distributed File system(hadoop分布式文件系统)HDFS起源于Google的GFS论文(GFS,Mapreduce,BigTable为google的旧的三驾马车)HBASE(1) 发表于2003年10月(2)HDFS是GFS的克隆版(3)易于扩展的分布式文件系统(4)运行在大量普通廉价机器上,提供容错机制(5)为大量用户提供性能不错的文件存取服务2.HDFS的架构图之基础架构[外链图片转原创 2022-02-14 16:24:45 · 1248 阅读 · 1 评论