日写BUG八百行-CSDN博客

原创 Windows配置java环境

在命令行输入java –version；如果能显示java的版本信息。

2024-02-13 13:07:51 610

原创 datax运行自检命令报错 datax/plugin/reader/._xxxx/plugin.json]不存在

datax

2022-06-12 09:56:42 1375

写脚本之前先安装服务yum install rsync -y#!/bin/bash# $#：表示传递给脚本或函数的参数个数。#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi #2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname #3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`ech

2021-04-25 17:05:36 292

原创教程：Oracle11g的安装

文章目录一、事前准备：二、安装步骤：三、注意事项1、禁用服务2、连接验证一、事前准备：oracle资源下载：znu9资源中的sqldeveloper是用来连接数据库安装之后自带的sqldeveloper回应为jdk版本问题无法正常使用要去官网下载新的sqldeveloper 也就是资源里的这个可以使用二、安装步骤：首先下载下来之后解压，将红框内两个文件合并成一个双击setup安装需要等一会儿接下来按照图示安装即可这里也可以选择桌面类后面的配置差不多这里的数

2021-01-18 19:56:56 367

原创 hive映射hbase

文章目录一 hive中建表映射hbase二建立ORC表一 hive中建表映射hbasecreate external table eventskb07.hb_user_friend(row_key STRING,user_id STRING,friend_id STRING)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'with serdeproperties ('hbase.columns.mapping'=':key

2020-10-13 11:52:47 196

原创 kafak中的数据传入hbase

文章目录package my.test.kafka_hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.hbase.c

2020-10-13 11:47:11 149

原创通过hive映射MongoDB

文章目录一 MongoDB数据二 hive建表语句三查询hive表一 MongoDB数据> db.user_friend.find(){ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfb"), "user_id" : "3197468391", "friend_id" : "3873244116" }{ "_id" : ObjectId("5f83260eafd3bb6e8c7efcfc"), "user_id" : "3197468391", "frie

2020-10-13 11:40:46 824

原创 Kafka数据传输到MongoDB

文章目录一 kafka数据格式二 MongoDB建表语句三将kafka数据传入到MongoDB中一 kafka数据格式403813272,3621115689403813272,1099977298403813272,1470696976403813272,325978978403813272,2429535244403813272,3934248982403813272,3972188036403813272,318125731403813272,34182802044038132

2020-10-13 11:25:37 1570

原创 CentOS 7 调整 home分区扩大 root分区

配置虚拟机时分了100G 但是root下只有50G 还有一部分分配到了home下因为centos7默认分区的root大小为50G，也就是说如果硬件分配的总大小超过50G，剩余的所有空间都会分配给home。这时候软件如果装在/usr/local目录下，并且data等数据文件也配置在root下，则必须在装机后调整root的大小，否则运行一段时间后很容易导致磁盘空间不足。基于这种情况，我们只需要将调整一下home分区的大小预留为1G，将其他的空间都分配给root即可。总体思路为：备份/home内容，然后将

2020-09-08 15:34:15 2384 1

原创 hbase shell 常用命令

文章目录DDL1. 创建表create2. 修改(添加、删除)表结构Schema alter3. 异步修改Schema alter_async4. 获取alter_async执行的状态 alter_status5. 获取表的描述describe6. 列举所有表list7. 表是否存在exists8. 启用表enable和禁用表disable9. 禁用满足正则表达式的所有表disable_all10. 启用满足正则表达式的所有表enable_all11. 删除表drop12. 删除满足正则表达式的所有表dro

2020-09-07 14:32:45 643

原创使用kafkaStream过滤数据

先写两个工具类package my.test.test.events.stream;import org.apache.kafka.streams.Topology;/** * @author WGY */public interface ICustomTopology { public Topology buildCustomTopology();}package my.test.test.events.stream;import org.apache.kafka.

2020-09-02 18:19:20 1665

原创 Flume对接Kafka，并实现数据分类 --代码演示

文章目录为什么要使用Flume对接Kafka1、编写Flume的conf文件2、启动kafka消费者3、启动Flume4、登录监控端口5、测试是否成功为什么要使用Flume对接Kafka生产环境中通常将数据写入日志文件中，这样更多的使用Flume但是，当有多个业务线需要使用数据时Flume，需要多个内存（多个sink）而且并不支持动态增加业务线而Kafka支持多条业务线使用，并且支持动态增加1、编写Flume的conf文件# namea1.sources = r1a1.sinks = k

2020-08-23 23:59:40 536

原创 kafka学习--Interceptor API--代码演示

文章目录时间戳拦截器统计拦截器使用自定义拦截器的Producer需求：给每条数据加上时间戳并统计成功或者失败的数量时间戳拦截器package my.test.interceptor;import org.apache.kafka.clients.producer.ProducerInterceptor;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.clients.producer

2020-08-23 23:28:14 115

原创 kafka学习--Partitioner API--代码演示

文章目录自定义分区使用自定义分区的Producer自定义分区package my.test.Partitioner;import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/** * @author WGY * 自定义分区 */public class MyPartitioner implements Partit

2020-08-23 23:25:04 160

原创 kafka学习--Consumer API--代码演示

package my.test.consumer;import org.apache.kafka.clients.consumer.*;import org.apache.kafka.common.TopicPartition;import org.apache.kafka.common.serialization.StringDeserializer;import java.util.Arrays;import java.util.Map;import java.util.Properti

2020-08-23 23:21:46 161

原创 kafka学习--Producer API--代码演示

文章目录消息发送流程自定义Producer使用回调函数的Producer自定义分区Partition使用自定义分区的Producer消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main 线程和 Sender 线程，以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator，Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Kafka

2020-08-23 23:20:29 165

原创 kafka学习--常用命令

文章目录添加配置文件：export KAFKA_HOME=/opt/kafkaexport PATH=$PATH:$KAFKA_HOME/bin启动kafka（先启动zookeeper）现实日志信息：kafka-server-start.sh /opt/kafka/config/server.properties //server.properties的路径后台运行kafka-server-start.sh -daemon /opt/kafka/config/server.

2020-08-22 22:48:48 231

原创大数据学习--kafka基本概念

文章目录官方文档什么是kafka官方文档消息中间件为什么要使用消息中间件消息中间件的工作模式消息中间件中的术语Kafka架构Kafka TopicKafka MessageKafka ProducerKafka BrokerKafka ConsumerKafka数据流ZooKeeper在Kafka中的作用官方文档什么是kafkaKafka是一种高吞吐量的分布式发布-订阅消息系统，专为超高吞吐量的实时日志采集、实时数据同步、实时数据计算等场景来设计官方文档kafka中文官方文档消息中间件消息中

2020-08-22 22:02:51 383

原创看完肯定会系列之———kafka安装

Kafka安装下载解压点击获取配置文件//config/server.propertiesbroker.id=0listeners=PLAINTEXT://master:9092zookeeper.connect=master:2181,slave1:2181,slave2:2181log.dirs、log.retention.hours启动启动之前先启动zookeeperbin/kafka-server-start.sh config/server.propertie

2020-08-22 22:01:17 129

原创大数据学习--flume

文章目录flume概述flume架构Sourcesnetcat（监控一个端口）exec（根据命令监控一般是tail或cat）spooldir（监控一个文件夹）taildir（监控多个文件或者文件夹特点是：断点续传）avroChannelsmemory（内存存储速度快但是不安全）file（本地文件存储安全速度慢）Sinkslogger（输出到控制台）hdfs（输出到hdfs）kafka（输出到kafka）filr row(保存在本地文件)选择器副本机制（复制）故障转移负载均衡自定义拦截器flu

2020-08-22 18:01:20 270

原创 spark学习--求DataFrema的交集、差集、并集

package test0816import org.apache.spark.sql.SparkSession/** * @author WGY */object Test extends App { private val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mysql").getOrCreate() //先声明两个DF val df1 = spark.create

2020-08-16 21:29:08 546

原创 spark学习--spark SQL

文章目录Spark SQLSparkConf与SparkSessionSparkContextSparkContext创建方法一使用SparkConfSparkContext创建方法二使用SparkSessionRDD、DataSet（DS）、DataFrame（DF）RDD转换为DS读取json文件并转换成DF通过样例类，将RDD转换成DF通过schema创建DFDF转换为RDDSpark SQL操作外部数据源通过DF读取parquet文件spark连接数据库（SparkToMySQL）spa

2020-08-13 16:18:27 307

原创 Spark学习--GraphX初体验

文章目录为什么需要图计算图（Graph）的基本概念图的术语Spark GraphX 简介实例演示为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图（Graph）的基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构1、通常表示为二元组：Gragh=（V，E）2、可以对事物之间的关系建模应用场景1、在地图应用中寻找最短路径2、社交网络关系3、网页间超链接关系

2020-08-11 00:14:58 260

原创 Spark学习--RDD优化

文章目录RDD持久化：缓存机制:检查点：快照检查点与缓存的区别RDD共享变量：累加器：(属于一种共享变量)RDD分区设计：数据倾斜：解决方法：1、对数据进行ETL预处理（数据清洗）2、过滤少数会导致倾斜的key3、提高shuffle操作的并行度4、两阶段聚合5、将reduce join转为map join6、采样倾斜key并分拆join操作7.使用随机前缀和扩容RDD进行joinRDD持久化：缓存机制:创建缓存：RDD.cache/或者persist RDD.cache之后并没有执行，需要.colle

2020-08-09 23:26:04 365

空空如也

空空如也