唐山师范学院
文章平均质量分 96
唐山师范学院
数据带你飞
大数据的世界带你飞!!!
展开
-
10.大数据技术之Flink
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算引擎分成了4代,当然,也有很多人不会认同。我们先姑且这么认为和讨论。Flink版本Kafka版本1.12.X2.4.11.11.X。......原创 2022-07-17 08:31:47 · 3715 阅读 · 0 评论 -
09.大数据技术之Spark
Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkCore、SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而原创 2022-07-13 14:07:38 · 8403 阅读 · 0 评论 -
08.大数据技术之Kafka
消息(Message)是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,有消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在。RabbitMQ 2007年发布,是一个在AMQP(高级消息队列协议)基础上完成的,可复用的企业消息系统,是当前最主流的消息中间件之一。Acti原创 2022-07-11 22:47:26 · 570 阅读 · 0 评论 -
07.大数据技术之Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。Flume支持定制各类数据发送方,用于收集各类型数据;同时,Flume支持定制各种数据接受方,用于最终存储数据。一般的采集需求,通过对flume的简单配原创 2022-07-11 22:42:15 · 375 阅读 · 0 评论 -
06.大数据技术之Hbase
hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)Hbase中支持的数据类型:byte[]。HBase的原型是Google的BigTab原创 2022-07-11 14:17:21 · 1046 阅读 · 0 评论 -
05.大数据技术之zookeeper
Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。 诸如: 统一命名服务(dubbo)、分布式配置管理(solr的配置集中管理)、分布式消息队列(sub/pub)、分布式锁、分布式协原创 2022-07-11 14:13:02 · 464 阅读 · 0 评论 -
04.大数据技术之Hive
hive原创 2022-07-05 17:32:52 · 339 阅读 · 0 评论 -
03.大数据技术之Hadoop(02)
03.hadoop02原创 2022-07-05 11:47:41 · 301 阅读 · 0 评论 -
02.大数据技术之Hadoop(01)
02.hadoop01原创 2022-07-05 11:32:36 · 257 阅读 · 0 评论 -
01.大数据概述与Linux集群环境准备
唐山师范学院原创 2022-07-05 11:09:14 · 439 阅读 · 0 评论