- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 Hive知识点总结(持续更新)
文章目录hive 基本概念hive的意义hive优缺点hive的架构原理hive和数据库比较hive的数据类型基本数据类型集合数据类型hive的表内部表外部表内部表外部表的转换分区表分桶表数据加载hive文件格式hive 基本概念hive的意义 hive是一个数据仓库工具,把结构化数据映射成表 支持类sql hive就是把hql转换为MapReduce 降低了我们学习成本 ...
2020-04-20 21:55:14 1031 1
原创 Spark的RDD的简要描述
文章目录什么是RDDRDD的属性RDD特点RDD的两种算子缓存什么是RDDRDD叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片函数;...
2020-04-12 20:46:45 715
原创 Spark 三种模式
文章目录Spark为什么快Spark 三种模式local本地模式standalone 模式standalone模式的运行图Yarn 模式yarn模式的运行图Spark为什么快 spark是基于内存的大数据分析引擎 spark 快速 通用 可扩展Spark 三种模式local本地模式 在一台计算机上运行 的模式 local 只有一个线程进行运行 local[N] ...
2020-04-12 20:35:54 303
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人