集群同步分发脚本 写脚本之前 先安装服务yum install rsync -y#!/bin/bash# $#:表示传递给脚本或函数的参数个数。#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi #2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname #3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`ech
教程:Oracle11g的安装 文章目录一、事前准备:二、安装步骤:三、注意事项1、禁用服务2、连接验证一、事前准备:oracle资源下载:znu9资源中的sqldeveloper是用来连接数据库 安装之后自带的sqldeveloper回应为jdk版本问题无法正常使用要去官网下载新的sqldeveloper 也就是资源里的这个 可以使用二、安装步骤:首先下载下来之后解压 ,将红框内两个文件合并成一个双击setup安装 需要等一会儿接下来按照图示安装即可这里也可以选择桌面类 后面的配置差不多这里的数
hive映射hbase 文章目录一 hive中建表映射hbase二 建立ORC表一 hive中建表映射hbasecreate external table eventskb07.hb_user_friend(row_key STRING,user_id STRING,friend_id STRING)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'with serdeproperties ('hbase.columns.mapping'=':key
kafak中的数据传入hbase 文章目录package my.test.kafka_hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.hbase.c
通过hive映射MongoDB 文章目录一 MongoDB数据二 hive建表语句三 查询hive表一 MongoDB数据> db.user_friend.find(){ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfb"), "user_id" : "3197468391", "friend_id" : "3873244116" }{ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfc"), "user_id" : "3197468391", "frie
Kafka数据传输到MongoDB 文章目录一 kafka数据格式二 MongoDB建表语句三 将kafka数据传入到MongoDB中一 kafka数据格式403813272,3621115689403813272,1099977298403813272,1470696976403813272,325978978403813272,2429535244403813272,3934248982403813272,3972188036403813272,318125731403813272,34182802044038132
CentOS 7 调整 home分区 扩大 root分区 配置虚拟机时 分了100G 但是root下只有50G 还有一部分分配到了home下 因为centos7默认分区的root大小为50G,也就是说如果硬件分配的总大小超过50G,剩余的所有空间都会分配给home。这时候软件如果装在/usr/local目录下,并且data等数据文件也配置在root下,则必须在装机后调整root的大小,否则运行一段时间后很容易导致磁盘空间不足。基于这种情况,我们只需要将调整一下home分区的大小预留为1G,将其他的空间都分配给root即可。总体思路为:备份/home内容,然后将
hbase shell 常用命令 文章目录DDL1. 创建表create2. 修改(添加、删除)表结构Schema alter3. 异步修改Schema alter_async4. 获取alter_async执行的状态 alter_status5. 获取表的描述describe6. 列举所有表list7. 表是否存在exists8. 启用表enable和禁用表disable9. 禁用满足正则表达式的所有表disable_all10. 启用满足正则表达式的所有表enable_all11. 删除表drop12. 删除满足正则表达式的所有表dro
使用kafkaStream过滤数据 先写两个工具类package my.test.test.events.stream;import org.apache.kafka.streams.Topology;/** * @author WGY */public interface ICustomTopology { public Topology buildCustomTopology();}package my.test.test.events.stream;import org.apache.kafka.
Flume对接Kafka,并实现数据分类 --代码演示 文章目录为什么要使用Flume对接Kafka1、 编写Flume的conf文件2、启动kafka消费者3、启动Flume4、登录监控端口5、测试是否成功为什么要使用Flume对接Kafka生产环境中通常将数据写入日志文件中,这样更多的使用Flume但是,当有多个业务线需要使用数据时Flume,需要多个内存(多个sink)而且并不支持动态增加业务线而Kafka支持多条业务线使用,并且支持动态增加1、 编写Flume的conf文件# namea1.sources = r1a1.sinks = k
kafka学习--Interceptor API--代码演示 文章目录时间戳拦截器统计拦截器使用自定义拦截器的Producer需求:给每条数据加上时间戳 并统计成功或者失败的数量时间戳拦截器package my.test.interceptor;import org.apache.kafka.clients.producer.ProducerInterceptor;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.clients.producer
kafka学习--Partitioner API--代码演示 文章目录自定义分区使用自定义分区的Producer自定义分区package my.test.Partitioner;import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/** * @author WGY * 自定义分区 */public class MyPartitioner implements Partit
kafka学习--Consumer API--代码演示 package my.test.consumer;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.util.Arrays;import java.util.Map;import java.util.Properti
kafka学习--Producer API--代码演示 文章目录消息发送流程自定义Producer使用回调函数的Producer自定义分区Partition使用自定义分区的Producer消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Kafka
kafka学习--常用命令 文章目录添加配置文件:export KAFKA_HOME=/opt/kafkaexport PATH=$PATH:$KAFKA_HOME/bin启动kafka(先启动zookeeper)现实日志信息:kafka-server-start.sh /opt/kafka/config/server.properties //server.properties的路径后台运行kafka-server-start.sh -daemon /opt/kafka/config/server.
大数据学习--kafka基本概念 文章目录官方文档什么是kafka官方文档消息中间件为什么要使用消息中间件消息中间件的工作模式消息中间件中的术语Kafka架构Kafka TopicKafka MessageKafka ProducerKafka BrokerKafka ConsumerKafka数据流ZooKeeper在Kafka中的作用官方文档什么是kafkaKafka是一种高吞吐量的分布式发布-订阅 消息系统,专为超高吞吐量的实时日志采集、实时数据同步、实时数据计算等场景来设计官方文档kafka中文官方文档消息中间件消息中
看完肯定会系列之———kafka安装 Kafka安装下载解压点击获取配置文件//config/server.propertiesbroker.id=0listeners=PLAINTEXT://master:9092zookeeper.connect=master:2181,slave1:2181,slave2:2181log.dirs、log.retention.hours启动启动之前先启动zookeeperbin/kafka-server-start.sh config/server.propertie
大数据学习--flume 文章目录flume概述flume架构Sourcesnetcat(监控一个端口)exec(根据命令监控 一般是tail或cat)spooldir(监控一个文件夹)taildir(监控多个文件或者文件夹 特点是:断点续传)avroChannelsmemory(内存存储 速度快 但是不安全)file(本地文件存储 安全 速度慢)Sinkslogger(输出到控制台)hdfs(输出到hdfs)kafka(输出到kafka)filr row(保存在本地文件)选择器副本机制(复制)故障转移负载均衡自定义拦截器flu