大数据
文章平均质量分 79
陈xr
致敬大神
展开
-
2024-02-29(Flink)
on yarn版:每个TaskManager是一个JVM进程,为了控制一个TaskManager(worker)能接收多少task,Flink通过Task slot来进行控制。TaskSlot数量是用来限制一个TaskManager工作进程中可以同时运行多少个工作线程,TaskSlot是一个TaskManager中的最小资源分配单位,一个TaskManager中有多少个TaskSlot就意味着能支持多少并发的Task处理。前面的Task Slot跑完一些线程任务之后,Task Slot可以给其他线程任务使用原创 2024-02-29 16:46:03 · 1168 阅读 · 0 评论 -
2024-02-28(Kafka,Oozie,Flink)
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。在 Spark 生态体系中,对于批处理和流处理采用了不同的技术框架,原创 2024-02-28 17:14:21 · 949 阅读 · 0 评论 -
2024-02-27(Kafka)
安装kafka集群,可以测试如下: 创建一个topic主题(消息都是存放在topic中,类似mysql建表的过程) 基于kafka的内置测试生产者脚本来读取标准输入(键盘输入)的数据,并放入到topic中 基于kafka的内置测试消费者脚本来消费topic中的数据推荐在开发中使用kafka tool 浏览kafka集群节点,多少个topic,多少个分区 创建topic/删除topic 浏览Zookeeper中的数据Kafka原创 2024-02-27 17:45:21 · 1297 阅读 · 0 评论 -
2024-02-26(Spark,kafka)
1)SparkSQL和Hive都是用在大规模SQL分布式计算的计算框架,均可以运行在YARN上,在企业中被广泛应用。2)SparkSQL的数据抽象为:SchemaRDD(废弃),DataFrame(Python,R,Java,Scala),DataSet(Java,Scala)3)DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不同的是,DataFrame中存储的数据结构是以表格形式组织的,方便进行SQL运算。原创 2024-02-26 15:20:54 · 1453 阅读 · 1 评论 -
2024-02-23(Spark)
使用场景:有时候一个Executor会处理多个分区数据,这些分区数据是接受相同的数据的,这个时候就不需要数据源一一给这些分区发一份分区数据了,只需要给这个Executor发一份数据就好,其所管辖的分区共享这份相同的数据。可以节约资源,降低IO,节约内存。1.Spark的算子十分丰富,MapReduce算子匮乏(Map和Reduce),MapReduce这个编程模型,很难在一套MR任务中处理复杂的任务,很多复杂的任务,是需要写多个MapReduce进行串联,多个MR串联通过磁盘交互数据。原创 2024-02-23 17:30:36 · 1145 阅读 · 0 评论 -
2024-02-22(Spark)
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可以分区,里面的元素可以并行计算的集合。Dataset:一个数据集合,用于存放数据的(本地集合是本进程集合,RDD是跨越机器的,因此RDD集合是跨进程集合)Distributed:RDD中的数据是分布式存储的,可用于分布式计算。(RDD的数据是跨越机器存储的/跨进程)Resilient:RDD中的数据可以存储在内存中或者磁盘中。原创 2024-02-22 17:38:54 · 1111 阅读 · 0 评论 -
2024-02-21(Spark)
4040:是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041,4042等。4040是一个临时端口,当前程序运行完成后,4040就会被注销。4040和Driver相关联,一个Driver启动起来,一个4040端口就被绑定起来,并可以查看该程序的运行状态。8080:默认情况是StandAlone下,Master角色(进程)的WEB端口,用以查看当前Master(集群)的状态。(Driver和Master是两个东西,Master进程用于管理集群,原创 2024-02-21 16:30:58 · 1167 阅读 · 0 评论 -
2024-02-20(DataX,Spark)
Spark对任意的数据类型都能进行自定义的计算,Spark可以计算结构化,半结构化,非结构化等各种类型的数据结构,同时,还支持Python,Java,Scala,R以及SQL语言去开发应用程序计算数据。Spark仅作计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。核心SparkCore,SQL计算(SparkSQL),流计算(SparkStreaming),图计算(GraphX),机器学习(MLlib)原创 2024-02-20 17:18:08 · 1116 阅读 · 0 评论 -
2024-02-19(Flume,DataX)
DataX是阿里巴巴开源的一个。原创 2024-02-19 17:11:31 · 1085 阅读 · 0 评论 -
2024-02-08(Flume)
进行以上图片中的数据流向的流程(不同的搭配,组合),只需要在相应组件的配置文件中,配置好入口,出口,相关操作类型。场景:企业中应用程序部署后会将日志写入到文件中,我们可以使用Flume从各个日志文件将日志收集到日志中心以便于查找和分析。(也可以进行多日志文件的监控)可以将多个Flume agent程序连接在一起,其中一个agent的sink将数据发送到另一个agent的source。(我们只需要在对应的Source配置文件中配置好相关需求,组件就可以根据我们配置的内容去达到我们需要的要求)原创 2024-02-08 14:28:15 · 1117 阅读 · 0 评论 -
2024-02-07(Sqoop,Flume)
Flume是一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到各种数据接收方的能力。Flume的设计原理是基于数据流的,能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume能够做到近似实时的推送,并且可以满足数据量是持续并且数量级很大的情况。原创 2024-02-07 17:43:29 · 2505 阅读 · 0 评论 -
2024-02-06(Sqoop)
在sqoop命令中,就是--query命令参数,实际上就是执行了一个sql语句。如果表的数据比较大,可以并行启动maptask执行导入操作,如果表没有主键,请指定根据哪个字段进行切分。从RDBMS导入到HDFS,表中的每一行视为HDFS的记录,所有的记录都存储为文本文件的文本数据。注意事项:命令携带的参数必须出现在同一行,若换行就意味着自动提交执行,可以通过"\"表示未结束。Sqoop可以理解为:SQL到Hadoop,Hadoop到SQL。Hadoop生态包括:HDFS,Hive,Hbase等。原创 2024-02-06 17:44:03 · 1251 阅读 · 0 评论 -
2024-02-05(Hive)
简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。通过ETL操作讲HDFS中的表进行数据清洗和过滤,生成新的表,然后利用BI工具,将新的表进行可视化展示。从一张表查询数据进行数据过滤和转换,并将结果写入到另外一张表中的操作,本质上就是一种简单的ETL行为。num(k|m|g):表示抽取num大小的数据,单位可以是k,m,g表示kb,mb,gb。从A抽取数据(E),进行数据转换过滤(T),将结果加载到B(L),就是ETL。y:表示将表数据随机划分为y份(y个桶)原创 2024-02-05 17:57:30 · 759 阅读 · 0 评论 -
2024-02-04(hive)
需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。分区表可以极大的提高特定场景下Hive的操作性能。分区其实就是HDFS上的不同文件夹。分桶表本质上是数据分开在不同的文件中。选择一个字段作为分桶字段。可以选择字段作为表分区。分区和分桶可以同时使用。原创 2024-02-04 18:00:56 · 712 阅读 · 0 评论 -
2024-02-01(Hive)
外部表:删除数据的时候,仅仅删除元数据(表的信息),保留数据。用于临时链接外部数据用。3.Hive中创建的库和表的数据,存储在HDFS中,默认存放在:hdfs://node1:8020/user/hive/warehouse中。6.外部表:既可以先有数据后有表,又可以先有表后有数据。4.hive的数据库本质上在HDFS中就是一个文件夹,文件夹中存放了数据库中的相关信息,例如表等等。5.Hive中表的类型:内部表,外部表,分区表,分桶表。原创 2024-02-01 19:41:52 · 661 阅读 · 0 评论 -
2024-01-31(MapReduce,YARN)
资源:服务器的硬件资源,CPU,内存,硬盘,网络等。资源调度:管控服务器的硬件资源,提供更好的利用率。分布式资源调度:管控整个分布式服务器集群的全部资源,整合进行统一调度。原创 2024-01-31 17:29:02 · 1116 阅读 · 0 评论 -
2024-01-30(Hadoop_HDFS)
狭义(技术思维):使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。广义:大数据是数字化时代,信息化时代的基础(技术)支撑,以数据为生活赋能。大数据的核心工作:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。(海量数据存储、海量数据传输、海量数据计算)NFS就是Network File System的缩写,它最大的功能就是可以通过网络,让不同的机器、不同的操作系统可以共享彼此的文件。(通俗的说NFS服务器可以让PC将网络中的NFS服务器共享的目录挂载。原创 2024-01-30 16:56:06 · 1165 阅读 · 0 评论