自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Spark Sql

/自定义函数})

2024-05-23 14:35:04 1929 3

原创 Spark 小结

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。由以下组件构成Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎 ,Spark CoreSpark Core中提供了Spark最基础与最核心的功能,Spark其他的功能如:Spark SQL,Spark Streaming,GraphX, MLlib都是在Spark Core的基础上进行扩展的。Spark SQLSpark SQL是Spark用来操作结构化数据的组件。

2024-05-19 22:24:04 944 1

原创 Spark拆分JSON文件为DataFrame写往MYsql

{"address":"中国.江苏.南京","area":1000.21,"classess":[{"classesName":"园林设计","num":20}],"level":"双一流","schoolName":"南京林业大学","teachers":[{"name":"张院士","year":50},{"name":"王院士","year":60}]}数组 用schemaClass,schemaTeachers两个结构块去拆。JdbcUtils如下 (连接数据库 hive配置)

2024-05-09 22:54:08 331

原创 HBase初识:很脆很能装

HBase 的设计理念依据 Google 的 BigTable 论文,论文中对于数据模型的首句介绍。Bigtable 是一个稀疏的、分布式的、持久的多维排序map。之后对于映射的解释如下:“该映射由行键、列键和时间戳索引:映射中的每个值都是一个未解释的字节数组。最终HBase 关于数据模型和 BigTable 的对应关系如下:“HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。

2024-04-12 00:12:58 2038

原创 flume文件监听文件 写向kafka消费者配置

users.sources.usersSource.includePattern=users_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv 指定文件名的匹配模式。users.channels.usersChannel.checkpointDir检查点文件目录。users.sources.usersSource.spoolDir指向监听文件夹。检查点用于记录数据流或处理过程中的状态信息,以便在发生故障时能够从中断处恢复。kafka位置以及topic名称。

2024-04-09 22:31:08 541

原创 有关Hive数据倾斜与调优的一些思考

Hive是基于Hadoop的一个数据仓库工具,它提供了数据提取、转化、加载(ETL)的功能,并能够将结构化的数据文件映射为一张数据库表,以支持SQL查询功能。Hive能够将SQL语句自动的转化为MapReduce任务来执行,不需要开发人员认为重构map与reduce方法满足自己的运算逻辑,使得大数据处理变得更加简单和高效,而涉及海量数据的计算的SQL往往需要大量的运行时间,这让我们不得不注重hive运行的调优。

2024-04-06 01:28:36 843 1

原创 yarn与MapReduce过程

YARN的基本思想是将资源管理和作业调度/监视功能划分为单独的守护进程。其思想是拥有一个全局ResourceManager (RM)为资源调度以及每个应用程序拥有一个ApplicationMaster (AM)作业调度。应用程序可以是单个作业,也可以是一组作业。在MR程序运行时,有五个独立的进程:- YarnRunner: 用于提交作业的客户端程序- ResourceManager: yarn资源管理器,负责协调集群上计算机资源的分配。

2024-04-02 17:18:27 1909 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除