数据开发工具
文章平均质量分 92
数据开发工具
若叶时代
初级程序员一枚,文章均来自互联网,加上自己的修改,存在错误和不完整.文章仅供参考.欢迎指正和交流.
展开
-
计算框架_Hadoop
对于每个block,NameNode都会返回含有该block副本的DataNode地址.返回的DN地址会按照集群拓扑结构中DataNode与客户端的距离进行排序:网络拓扑结构中距离客户端近的排靠前,心跳机制中超时汇报的DN排靠后。(1) NameNode:①存储元数据(整个文件系统的目录树结构,以及NameNode中的文件块信息),接收客户端读写数据请求;(1) 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中.②不适合处理低延迟的数据访问;转载 2020-11-28 09:36:13 · 1702 阅读 · 1 评论 -
Spark_SparkCore
Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.每个节点的executor只拥有一份广播变量的数据,该executor上的所有的Task共用这一个只读变量.(2) 配置 log4j.properties,设置日志输出等级。将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。原创 2022-08-27 15:39:38 · 504 阅读 · 0 评论 -
Spark_SparkSQL
(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(1) 创建 DataFrame。原创 2022-09-08 12:01:16 · 939 阅读 · 0 评论 -
Spark_工具使用
(1) 下载:wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz。(1) 分发节点:scp -r /usr/hdp/3.1.5.0-152/spark root@node01:/usr/hdp/3.1.5.0-152/(2) 解压:tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /usr/hdp/3.1.5.0-152/转载 2020-11-10 00:19:13 · 569 阅读 · 0 评论 -
Hive_数据模型_分区
阿里云:分区和列操作。转载 2020-11-28 09:26:11 · 904 阅读 · 0 评论 -
Hive_优化/问题
②提高每个Join Worker的内存大小,odps.stage.joiner.mem,256 MB~12288 MB,默认值为1024 MB.①left join的左表必须是大表,right join的右表必须是大表,inner join无要求,full join不能使用mapjoin;在进行join操作时,mapjoin会将指定的小表加载到各个Map端进行计算,省去了reduce阶段的计算,从而提高计算效率.①提高每个join Worker的数量,odps.stage.joiner.num.原创 2020-09-23 15:10:42 · 2130 阅读 · 1 评论 -
Hive_语法
修改为外部表('EXTERNAL'='TRUE')或内部表('EXTERNAL'='FALSE')CSDN:Hive调优利器之explain详解。(1) 复制表结构及其数据。(2) 只复制表结构。原创 2021-03-21 15:57:40 · 832 阅读 · 1 评论 -
Hive_函数
UDF :操作单行数据,产生单行数据;UDAF :操作多行数据,产生单行数据;UDTF :操作单行数据,产生多行数据.原创 2022-04-28 17:27:25 · 1972 阅读 · 0 评论 -
Hive_工具使用
CSDN:hive中beeline连接异常User:*** is not allowed to impersonatehttps://blog.csdn.net/qq_42982169/article/details/83317596编辑https://blog.csdn.net/qq_42982169/article/details/83317596。(2) 日志:/var/log/hive/hiveserver2.log。(5) -hiveconf:x=y,配置环境变量。转载 2024-09-10 11:29:20 · 35 阅读 · 0 评论 -
任务调度_Azkaban
(3) Flow:工作流,由一个或多个job组成.工作流是指一类能够完全自动执行的经营过程,根据一系列过程规则,将文档、信息或任务在不同的执行者之间进行传递与执行.工作流就是封装好的一种框架,我们利用这种框架来解决需要多个人或者多个部门协同完成的某项工作.(1) Azkaban:一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组任务.Azkaban使用job配置文件建立任务之间的依赖关系,并通过web用户界面维护工作流.action=activate。原创 2020-11-08 17:05:16 · 1682 阅读 · 1 评论 -
数据分析_Elasticsearch
(4) 倒排索引:对数据库原始的数据根据字或词进行索引,创建倒排索引数据区域,记录字或词在文档中出现位置(id列表)。(6) 副本(replicas):ES可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复.二是提高ES的查询效率,ES会自动对搜索请求进行负载均衡.Elasticsearch 集群可以包含多个索引(Index),每个索引可以包含多个类型(Type),每个类型可以包含多个文档(Document),每个文档可以包含多个字段(Field).原创 2020-11-08 15:44:14 · 688 阅读 · 0 评论 -
数据同步_Canal
(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。转载 2022-09-25 22:41:23 · 459 阅读 · 0 评论 -
数据同步_DataX
解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(1) 执行自检脚本报错:您提供的配置文件[/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件。③改为全量同步数据.原创 2022-09-23 09:33:38 · 522 阅读 · 0 评论 -
ETL工具_Kettle_转换
大数据ETL开发之图解Kettle工具入门到精通(附上kettle安装包)转载 2024-07-04 11:57:13 · 32 阅读 · 0 评论