BigData-tools
文章平均质量分 52
大数据的工具集合使用
wudl5566
这个作者很懒,什么都没留下…
展开
-
Presto 安装配置
1.Presto简介:1.presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。2.presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。3.主要用来处理秒级查询场景。下入在官网:https://prestodb.io/overview.html2.Presto 架构详细的架构图3.presto 安装部署3.1 需要的文件:presto-server-0.245.tar.gz 下载地址原创 2021-01-05 21:19:49 · 908 阅读 · 0 评论 -
对象序列化 avro的使用
1. 官网https://avro.apache.org/2.Avro简介Apache Avro(以下简称 Avro)是一个数据序列化系统,是一种与编程语言无关的序列化格式,是提供一种共享数据文件的方式。Avro是Hadoop中的一个子项目,Avro是一个基于二进制数据传输高性能的中间件。Avro可以做到将数据进行序列化,适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后节约数据存储空间和网络传输带宽。序列化就是将对象转换成二进制流,相应的反序列化就是将二进制流再转换成对应的原创 2022-01-12 00:38:35 · 685 阅读 · 0 评论 -
Nginx 反向代理cdh
1.配置地址 nginx /conf/nginx.conttp { include mime.types; default_type application/octet-stream; #log_format main '$remote_addr - $remote_user [$time_local] "$request" ' # '$status $body_bytes_sent "$http_referer"原创 2021-11-25 18:27:15 · 283 阅读 · 0 评论 -
Datax 的基本操作
1. Datax简介:DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。开源地址:https://github.com/alibaba/DataX1.1 测试datax 执行环境:执行命令[root@bigdata001 bin]# python datax.py /opt/module/datax/job/job.jsonTime 0.024s原创 2021-10-30 23:37:12 · 1685 阅读 · 0 评论 -
Azkaban 调度
1.azkan 的Work Flow 调度1.新建一个项目2. 编写多个脚本执行flow 脚本参数解释:1)name:作业名称2)type:作业类型(详细类型配置见第3章)3)config:和作业类型相关的配置,也以KV值形式4)dependsOn:作业依赖名称实例:bigdata.flow 文件内容nodes: - name: mysql_bidding_to_hdfs type: command config: command: /opt/shell/原创 2021-07-05 16:14:14 · 172 阅读 · 0 评论 -
kafka tool 工具的使用
1. 官网的下载地址http://www.kafkatool.com/download.html2. 傻瓜式的安装 一步 一步的安装。3. 配置3.1 第一步3.2 第二部配置3.3 第三步点击test 测试3.4 设置查看消息类型为String ,否则是二进制看不了,如下设置3.5 查看消息...原创 2020-12-07 23:42:58 · 173 阅读 · 0 评论