spark
文章平均质量分 75
spark笔记
Antgeek
喜欢各种技术,前端后端大数据均有涉猎,目前从事大数据开发.
展开
-
spark sql 总结
一.概述1.前世今生大量数据需要处理 ➡️ MapReduce出现sql on mr ➡️ Hivemr效率太低 ➡️ TezTez效率低 ➡️ Sparksql on spark ➡️ Shark(太多的的借鉴了Hive制约了它,然后被推翻了,现在已经被弃用)sql on spark ➡️ SparkSql2.简介Spark SQL是Spark处理数据的一个模块专门用来处理结构化数据的模块,像json,parquet,avro,csv,普通表格数据等均可。与基础RDD的AP原创 2021-11-21 23:11:21 · 771 阅读 · 1 评论 -
sparksql 查询不到hive内部表数据
问题描述使用sparksql查询hive数据表,第一个表查询出了,第二个表查询出了,第三个查询…居然没有结果????????????,奇怪了,接着使用hive查询了一下这个表,发现是有数据的.问题分析表和表之间有差异?确实有hive分为内表和外表内表 元数据和数据都由hive管理外部表 元数据hive管理,数据hdfs管理很可能问题就是出在了这里…然后就一顿百度????????????终于找到了问题的原因:????????????????????hive 默认生成的内表是事务表(A原创 2021-11-20 06:00:00 · 2968 阅读 · 1 评论 -
spark 常用算子
一.概述算子英文翻译为:Operator(简称op)狭义:指从一个函数空间到另一个函数空间(或它自身)的映射。广义:指从一个空间到另一个空间的映射通俗理解:指事物(数据或函数)从一个状态到另外一个状态的过程抽象。实质就是映射,就是关系,就是变换。算子的重要作用算子越少,灵活性越低,则实现相同功能的编程复杂度越高,算子越多则反之。算子越少,表现力越差,面对复杂场景则易用性较差。算子越多的则反之。MapReduce 与 Spark算子比较MapReduce只有2个原创 2021-11-19 21:39:09 · 1447 阅读 · 0 评论 -
spark core 总结
一.Spark 架构设计架构设计图二.相关术语名词解释RDD (Resilient Distributed DataSet)弹性分布式数据集,是对数据集在spark存储和计算过程中的一种抽象。是一组只读、可分区的的分布式数据集合。一个RDD 包含多个分区Partition(类似于MapReduce中的InputSplit),分区是依照一定的规则的,将具有相同规则的属性的数据记录放在一起。横向上可切分并行计算,以分区Partition为切分后的最小存储和计算单元。纵向上可进行内原创 2021-11-19 21:35:56 · 153 阅读 · 0 评论 -
spark 初识
一.概述大数据领域分类离线处理实时处理大数据开发瓶颈IO绝大多数的瓶颈都卡在这里计算一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑sparkmapreduce遇到的瓶颈操作类型有限,仅支持map和reduce两种操作编程复杂较高,学习成本高处理效率低map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据任务调度和启动开销比较大在机器学习,图计算方面支持有限,性能较差定义:一个原创 2021-11-19 00:00:00 · 1395 阅读 · 0 评论