大数据
zcty2020
我就是我,不一样的烟火。
展开
-
2021-08-11字节跳动大规模埋点数据治理最佳实践
https://zhuanlan.zhihu.com/p/396582298转载 2021-08-11 10:05:55 · 323 阅读 · 0 评论 -
数据质量监控相关文档汇总
https://tech.meituan.com/2018/03/21/mtdp-dataman.htmlhttps://www.cnblogs.com/volcao/p/13660937.html原创 2021-06-08 14:02:54 · 129 阅读 · 0 评论 -
Kafka可视化客户端工具(Kafka Tool 2)的安装和使用
https://www.hangge.com/blog/cache/detail_2945.html原创 2021-05-18 09:48:35 · 490 阅读 · 0 评论 -
HDFS常用命令(持续增加,总结贴)
1.帮助命令 可以通过此命令了解更多命令hdfs dfs -help2.根目录详情hdfs dfs -ls /3.文件上传到hdfs的根目录下hdfs dfs -put a.txt /a.txt4.剪切文件到hdfs的根目录下hdfs dfs -moveFromLocal a.txt /aa.txt5.从hdfs根目录下载文件到指定位置hdfs dfs -get /a.txt /root/aa.txt6.在hdfs下创建文件夹hdfs dfs原创 2020-08-11 15:42:42 · 178 阅读 · 0 评论 -
KETTLE实现Hadoop文件数据抽取及输出(超详细,图文并茂)
一、需求说明将源表(T_USER)中的用户信息同步到Hadoop中,然后再抽取Hadoop文件中数据到文本文件中。二、启动kettle双击 Spoon.bat 就能启动 kettle 。三、创建转换Hadoop集群配置说明首先需要从hadoop集群中(/../hadoop-3.1.2/etc/hadoop)复制core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml文件到shim文件夹中(..\data-integration\原创 2020-06-21 15:17:55 · 4227 阅读 · 1 评论 -
KETTLE-调用WebService服务返回Json和xml数据
一、需求说明调用WebServcie服务将返回的Json数据解析并存储到文本文件中服务说明: 类型 值 说明 服务地址 http://localhost:28080/cxf?wsdl 方法名称 getJson 方法一入参 name String类型 ..原创 2020-06-21 14:54:53 · 5341 阅读 · 1 评论 -
kettle抽取excel 文件按指定模板输出并实现工作表保护
一、需求说明 读取T_USER表中数据输出到excel文件中,excel文件采用指定格式,并且对excel文件设置保护工作表,如果需要修改文件中内容需要输入密码。 数据输入模板如上所示,红色框中输入用户信息,并且设置保护单元格形式,这样如果不知道密码的话就无法更改单元格中数据,对数据起到保护作用。二、模板准备根据需求按照上面格式设置excel模板三、创建转换(oracle数据到excel文件)打开 kettle,点击 文件->新建->转换。在...原创 2020-06-19 15:57:48 · 2319 阅读 · 1 评论 -
基于CentOS7的Hadoop3.1.2完全分布式集群部署记录
本文介绍基于CentOS7的Hadoop3.1.2完全分布式集群部署方法和注意事项,整体服务部署架构分为1 个 master主机,2 个 slave 主机,总共3台服务器,外加一台hive服务器。具体服务规划如下表所示:部署所需的软件获取地址:https://pan.baidu.com/s/1qO-nhyRm9iXy1tHEyZO7KQ获取码和文档部署操作手册请扫描关注文末公众号,回复“Hadoop集群”获取。...原创 2020-06-18 11:51:26 · 492 阅读 · 0 评论 -
kylin案例演示
Apache Kylin 是什么?Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Apache Kylin框架介绍Apache kylin 能提供低延迟(sub-second latency)的秘诀就是预计算,即针对一个星型拓扑结构的数据立方体,预计算多个维度组合的度量,然后将结果保存在hbase中,对外暴露JDBC、ODBC、Re原创 2020-06-18 10:59:23 · 524 阅读 · 0 评论 -
Centos7环境下Kettle集群环境搭建和使用示例
Kettle的集群原理完全分布式即是在该集群环境中所有的kettle服务都是部署在不同的机器上,互相之间没有影响。此处以一个真实环境为例,来介绍kettle完全分布式环境的开发使用。生产环境中kettle服务器都是部署在linux服务器上,在windows本地开发好kettle任务,然后在linux集群环境上运行。完全分布式集群搭建环境规划该环境模拟一台主服务器,两台从服务器的方式。 名称 IP 端口 说明...原创 2020-06-19 16:24:12 · 1407 阅读 · 0 评论 -
Hadoop+Hive+Zookeeper+hbase+kylin环境搭建说明
本文介绍基于CentOS7的Hadoop2.7.7集群+hive1.2.2+Tkylin2.5.0+hbase1.5.0+zookeeper3.4.14部署方法和注意事项,整体服务部署架构如下表所示:总体环境规划1 个 master主机,2 个 slave 主机,3台服务器部署结构 hostname master232 slave233 slave229 IP 102.1...原创 2020-06-02 11:07:00 · 446 阅读 · 1 评论 -
CentOS7上Hadoop2.7.7集群部署hive3+Tez0.9.1
本文介绍基于CentOS7的Hadoop2.7.7集群部署hive3+Tez0.9.1方法和注意事项,整体服务部署架构分为1 个 master主机,2 个 slave 主机,总共3台服务器,外加一台hive服务器。具体服务规划如下表所示: hostname master232 slave233 slave229 Hive3 IP 192.168.7.232 ...原创 2020-06-01 16:04:57 · 570 阅读 · 0 评论