大数据能力沉淀
文章平均质量分 92
weixin_48412526
这个作者很懒,什么都没留下…
展开
-
Spark RDD 操作 Transformation/Action 以及示例
目录前言一、TransformationPair RDD二、Action 操作Pair RDD三、WordCount统计每个学科中最受欢迎的老师分组统计多次过滤自定义分区器自定义分区器总结前言RDD 基本概念RDD是什么 为什么需要RDD RDD特性 RDD 是一个可读的可分区的分布式数据集,RDD中保存着数据的转换关系,真正的数据存储在各个分区上。分区的设计可以让RDD中的数据被并行操作。 Resili..原创 2021-05-24 16:44:26 · 503 阅读 · 0 评论 -
Spark总述
目录前言一、Spark 基本定义Spark 相对于 MapReduce 的优势二、Spark 的组成三、Spark 运作时架构四、任务层定义五、RDD间依赖关系:宽窄依赖(shuffle)pom 文件总结前言学会用一个技术只是第一步,最重要的是要追问自己:这个技术解决了哪些痛点? 别的技术为什么不能解决? 这个技术用怎样的方法解决问题? 采用这个技术真的是最好的方法吗? 如果不用这个技术,你会怎样独立解决这类问题?一、Spark...原创 2021-05-17 18:14:53 · 272 阅读 · 0 评论 -
Hive SQL 常用命令和知识点
目录前言一、SELECT 语句的处理顺序二、建表建立orc表通过select 建立orc表(不能建成分区表)复制表结构(复制大法好啊!!!!!)通过text文本建表(可以自造数据,但是只能建成text表,多为测试使用)三、删除表和分区删除表删除分区删除某行数据四、修改五、常用函数字符串函数时间函数row_number 函数使用方法六、动态分区七、行转列 和 列转行explode 行转列列转行 collect_set(col.原创 2021-05-13 18:01:04 · 357 阅读 · 0 评论 -
Hive简介和Hive SQL优化
Hive 基本概念Hive SQL 的优化方式Hive 基本概念hive是什么 为什么需要hive hive的作用 hive是由Facebook开源用于解决海量结构化日志的数据统计; hive是一个基于hadoop的数据库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能 hive的本质是将SQL语句转化成MapReduce程序,然后在hdfs上运行MapREduce,并返回结果 没有hive,我们只能通过写m.原创 2021-05-13 10:41:08 · 112 阅读 · 0 评论 -
HDFS基本命令
目录HDFS基本概念HDFS 常用命令HDFS基本概念概念 作用 特性 1. HDFS是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件; 2. HDFS是分布式的,有很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重点概念:文件切块,副本存放,元数据(目录结构及文件分块信息) 设计思想:分而治之 将大文件、大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进...原创 2021-05-11 17:11:26 · 103 阅读 · 0 评论