GambleLife-CSDN博客

原创数仓的各个脚本

集群分发脚本#!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in hadoop101 hadoop102 hadoop103do echo ==================== $host ==================== #3. 遍历所有目录，挨个发送 for file in $@ do #4 判断文

2022-02-24 10:42:28 1113

原创 Maxwell:实时监控MySQL数据库的数据变更操作(包括增删改),并以JSON格式发送给Kafka

官网地址：http://maxwells-daemon.io/字段解释database变更数据所属的数据库table表更数据所属的表*type*数据变更类型*ts*数据变更发生的时间xid事务idcommit事务提交标志，可用于重新组装事务*data*对于insert类型，表示插入的数据；对于update类型，标识修改之后的数据；对于delete类型，表示删除的数据*old*对于update类型，表示修改之前的数据，只包含

2022-02-24 10:36:52 2168

原创 DataX

DataX:异构数据源离线同步工具源码地址：https://github.com/alibaba/DataX下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz·安装过后自检 ·python /bin/datax.py /job/job.json·dataX的使用:只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer ·查看dataX配置文件模板 ·python /bin/data

2022-02-24 10:30:05 774

原创数仓环境的搭建

虚拟机环境的准备·修改虚拟机为静态ip ·vim /etc/sysconfig/network-scripts/ifcfg-ens33 DEVICE=ens33 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static NAME="ens33" PREFIX=24 //ip地址 IPADDR=192.168.88.101 //网关 GATEWAY=192.168.88.2 DNS1=192.168.88.2 ·查看Linux虚拟机的

2022-02-24 10:20:10 1523

原创 Zookeeper

Zookeeper：基于观察模式设计的分布式服务管理框架·负责存储和管理关心的数据,然后接收观察者的注册·简单来说,Zookeepoer = 文件系统 + 通知机制·clientPort = 2181;客户端的连接端口Zookeeper特点·Zookeeper:一个领导者(Leader),多个跟随者(follower)组成的集群·集群中只要有半数以上存活，Zookeeper集群就能正常服务·全局一致性:每个Server保存一个相同的数据副本，Clinet无论连接哪个Server，数据都是一致

2022-02-17 23:57:56 1809

原创 Flume

Flume安装地址·Flume官网地址：http://flume.apache.org/·文档查看地址：http://flume.apache.org/FlumeUserGuide.html·下载地址：http://archive.apache.org/dist/flume/Flume概述·Flume是一个高可用的,分布式的海量日志采集、聚合和传输的系统：基于流式架构，简单灵活·Flume可以实时的监控本地磁盘的数据,实时读取服务器本地磁盘,聚合在一起,上传到HDFS等Flume基础架构

2022-02-17 22:33:25 421

原创 Kafka

Kafka：一个分布式的基于发布/订阅模式的消息队列·Kafka类似于缓冲池,用于数据的传输·采集的速度与上传的速度不一致,Kafka作为中间的缓冲池起缓冲作用·发布/订阅:发布者只需要发送到固定的位置上,下游读取时,无需知道发布者是谁,只需要取走订阅的即可消息队列:消峰、解耦、异步通信·大数据应用于Kafka;JaveEE主要采用ActiveMQ、RabbitMQ、RocketMQ·解耦:允许你独立的扩展或者修改两边的处理过程<哪边出问题,单独修改哪边>,只要确保它们遵守相同的接

2022-02-16 01:01:21 327

原创 Hive的安装与配置

hive：基于Hadoop的数据仓库工具·可将结构化的数据文件映射为一张表,并提供类SQL（HQL）的语法·本质:将HQL转换成Mapreduce程序 ·Hive处理的数据存储在HDFS上 ·Hive分析数据底层的实现是Mapreduce ·执行过程运行在Yarn上Hive的优缺点·优点 ·操作接口采用类SQL语法,简单、容易上手 ·避免去写MapReduce,减少开发人员的学习成本 ·Hive优势在于处理大数据,支持海量数据的分析与计算 ·Hive支持用户自定义函数,用户可以根据自

2022-02-10 16:22:10 1540

原创 Hadoop优化以及新特性

HDFS-多目录1、NameNode多目录配置 ·hdfs-site.xml <property> <name>dfs.namenode.name.dir</name> <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value> </property>·如果已经存在NameNode,需要删除之前的d

2022-01-23 20:10:41 1377

weixin_50396049的博客