![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据采集回顾
文章平均质量分 52
午饭有鱼有虾9
这个作者很懒,什么都没留下…
展开
-
04_查看进程脚本
#! /bin/bash#1、判断参数是否输入if [ $# -lt 1 ]then echo "必须输入一个待执行的命令..." exitfi#2、执行指令#xcall.sh mkdir -p /opt/module/xxxfor host in hadoop102 hadoop103 hadoop104do echo "======================$host=========================" ssh $host "$*"...原创 2021-05-11 17:51:15 · 111 阅读 · 0 评论 -
json格式介绍
json格式: 1、普通对象和Map: 由{}包裹,属性名通过""包裹,属性名与属性值之间通过:分割,属性和属性之间通过逗号分割 属性值如果是字符串通过""包裹 class Person{ private String name; private int age; public Person(String name,int age) = { this...原创 2021-05-11 17:50:37 · 84 阅读 · 0 评论 -
05_zookeeper启动脚本
#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数......" exitfi#2、根据参数匹配动作case $1 in"start") for host in hadoop102 hadoop103 hadoop104 do echo "=======================启动$host zookeeper==================" ssh $ho...原创 2021-05-11 17:49:48 · 35 阅读 · 0 评论 -
06_第一层flume配置文件
#1、定义agent、source、channel的名称a1.sources = r1a1.channels = c1#2、描述sourcea1.sources.r1.type = TAILDIR#定义断点续传文件a1.sources.r1.positionFile = /opt/module/flume/position.json#定义监控的文件组a1.sources.r1.filegroups = f1#制定文件组监控的文件a1.sources.r1.filegroups.f1 =原创 2021-05-11 17:49:15 · 284 阅读 · 0 评论 -
07_第一层flume采集脚本
#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数..." exitfi#2、根据参数匹配逻辑case $1 in"start") for host in hadoop102 hadoop103 do ssh $host "nohup /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /op...原创 2021-05-11 17:48:41 · 59 阅读 · 0 评论 -
08_第二层flume配置文件
#1、定义agent、source、channel、sink的名称a1.sources = r1a1.channels = c1a1.sinks = k1#2、描述sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource#指定kafka集群地址a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092#指定消费者组的ida1.so原创 2021-05-11 17:47:55 · 172 阅读 · 0 评论 -
09_sqoop常用参数
sqoop 导入常用参数:bin/sqoop import ------------------------------公有参数----------------------------------- --connect 指定mysql url连接 --username 指定mysql账号 --password 指定mysql的密码 -------------------------------导入HDFS的时候使用-------------------------...原创 2021-05-11 17:46:42 · 295 阅读 · 0 评论 -
10_首次导入数据脚本
#! /bin/bash#first.sh all/表名 日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "至少需要传入一个参数..." exitfi#2、判断日志是否传入,如果传入了日志,则用指定的日期,如果没有传入,则用前一天的日期[ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...原创 2021-05-11 17:45:29 · 75 阅读 · 0 评论 -
11后续数据导入脚本
#! /bin/bash#importdata.sh all/表名 日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须至少传入一个参数...." exitfi#2、获取日期[如果有传入日期用指定日期,如果没有传入日期用前一天的日期][ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...原创 2021-05-11 17:03:31 · 64 阅读 · 0 评论 -
数据采集回顾
1、数据仓库的概念 数仓就是数据仓库,数仓用于数据存储、分析、清洗、聚合等操作2、项目需求 1、数据采集平台[业务、日志] 2、数仓的维度建模 3、根据主题进行统计分析 4、即席查询 5、集群性能监控 6、元数据管理 7、数据质量监控 8、可视化3、技术选型 1、采集传输: Flume、kafka、Sqoop、logstash、datax flume、logstash: 主要用于采集日志 ...原创 2021-05-11 17:02:00 · 159 阅读 · 0 评论