数据计算引擎
文章平均质量分 80
数据计算引擎
若叶时代
初级程序员一枚,文章均来自互联网,加上自己的修改,存在错误和不完整.文章仅供参考.欢迎指正和交流.
展开
-
MaxCompute_函数
4)去除字符串的首尾空格。(1)获取字符串的长度。(1)获取当前系统时间。(1)查看支持的函数。(1)时间戳转时间。(2)时间转时间戳。(3)日期转字符串。(2)数据类型转换。原创 2021-06-12 17:41:14 · 829 阅读 · 0 评论 -
MaxCompute_概念/使用
最上层部分,负责数据上传下载、用户鉴权以及负载均衡.①各种外部数据源都可以通过外部传输工具将数据同步到分布式文件存储系统盘古中.②用户使用命令行工具、MaxCompute Studio以及DataWorks等开发完任务提交后,提交HTTP服务,向用户中心做身份鉴权.MaxCompute是适用于数据分析场景的模式云数据仓库.采用的是类似与SQL的语法,可以看作是标准SQL的子集.核心的部分,负责对命令的解析与执行、用户空间和对象的管理控制及授权等功能,元数据存储在分布式元数据服务上....转载 2022-01-03 11:03:57 · 749 阅读 · 0 评论 -
Spark_优化/问题
⑤spark.default.parallelism:设置每个stage的默认task数量.④尽量避免使用shuffle类算子,如reduceByKey、groupByKey.③executor-cores:设置每个Executor的CPU数量.②executor-memory:设置每个Executor的内存.⑤使用高性能的算子,如mapPartitions替代普通map.①num-executors:设置Executor的个数.④driver-memory:设置Driver进程的内存.原创 2023-03-28 00:40:12 · 64 阅读 · 0 评论 -
Spark_SparkStreaming
②Direct 方式:周期性地查询 Kafka,获取最新的offset,从而定义每个batch的offset的范围.使用 kafka 的简单 API ,Spark Streaming 自己负责追踪消费的 offset,并保存在 checkpoint 中.②SparkStreaming:是一个准实时计算框架,实时接受输入的数据,将数据流抽象成DStream,每个 DStream 表示的是一系列 RDD,并按照固定长度的时间段将源源不断进来的数据划分成batch,每一个batch进行一次计算.转载 2022-09-16 17:16:33 · 275 阅读 · 0 评论 -
Spark_SparkSQL
(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(3) 关闭Hive3 ACID功能.原创 2022-09-08 12:01:16 · 897 阅读 · 0 评论 -
Spark_SparkCore_RDD
Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.①血缘关系:节点之间存在直接或间接依赖关系,多个节点的依赖关系构成血缘关系,每个节点都维护着本节点的血缘关系.当程序出错时,可通过血缘关系向上追溯到有数据的节点,重新计算恢复.将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。原创 2022-08-27 15:39:38 · 310 阅读 · 0 评论 -
Spark
(1) 下载:wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz。(1) 分发节点:scp -r /usr/hdp/3.1.5.0-152/spark root@node01:/usr/hdp/3.1.5.0-152/(2) 解压:tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /usr/hdp/3.1.5.0-152/转载 2020-11-10 00:19:13 · 515 阅读 · 0 评论 -
Hive_数据类型/运算符
目录1 数据类型1.1 复杂数据类型1 数据类型1.1 复杂数据类型(1) 数组由一系列相同数据类型的元素组成,元素可以通过下标来访问,从0开始.-- 1 要导入的数据 monday,sunday,tuesday-- 2 建表create table day( week_name array<string>)row format delimitedfields terminated by '\t'collecti...转载 2022-04-29 17:58:22 · 95 阅读 · 0 评论 -
Hive_函数
UDF :操作单行数据,产生单行数据;UDAF :操作多行数据,产生单行数据;UDTF :操作单行数据,产生多行数据.转载 2022-04-28 17:27:25 · 1606 阅读 · 0 评论 -
MapReduce
4)shuffle阶段对map阶段产生的一系列进行分区、缓存、排序、文件合并等操作,然后处理成适合reduce任务输入的键值对形式;如果设置了map端预聚合,会将有相同key的key/value对的value加起来,减少溢写到磁盘的数据量.(5)reduce阶段提取所有相同的key,并按用户的需求对value进行操作,最后以的形式输出结果;(3)map阶段对输入的键值对进行处理,然后产生一系列的中间结果;①可以处理海量数据;......转载 2020-12-01 20:08:50 · 224 阅读 · 0 评论 -
Hive_概念/使用
①textfile :默认格式,导入数据时会直接把数据文件拷贝到 HDFS 上不进行处理,行存储.存储空间大,解析时资源消耗大.其它存储格式的表不能直接从本地文件导入数据,要先将数据导入到textfile表中,再用 insert 或者 create table as select 导入数据.①内部表(管理表):表数据由Hive自身管理,表数据存储的位置是hive.metastore.warehouse.dir,删表会直接删除元数据及存储数据.②连接hiveserver2:beeline。转载 2021-03-21 16:10:09 · 129 阅读 · 0 评论 -
Hive_语法
-表类型...--分区--分桶--行分隔符--数据存储方式--外部表数据存储路径--表内部属性-- 例tblproperties("skip.header.line.count"="1"):导入数据时忽略文件第一行.原创 2021-03-21 15:57:40 · 481 阅读 · 0 评论 -
Hive_数据模型_分区
分区表是指拥有分区空间的表,即在创建表时指定表内的一个或者某几个字段作为分区列.分区表实际就是对应分布式文件系统上的独立的文件夹,一个分区对应一个文件夹,文件夹下是对应分区所有的数据文件.原创 2020-11-28 09:26:11 · 619 阅读 · 0 评论 -
Hive_优化/问题
②提高每个Join Worker的内存大小,odps.stage.joiner.mem,256 MB~12288 MB,默认值为1024 MB.②设置mapjoin时小表的最大文件大小,默认为25000000(25M):set hive.mapjoin.smalltable.filesize.①开启Mapjoin,默认开启:set hive.auto.convert.join = true.①提高每个join Worker的数量,odps.stage.joiner.num.原创 2020-09-23 15:10:42 · 1774 阅读 · 1 评论