程序猿与汪-CSDN博客

原创千亿数仓/Hive-基础操作:建表:内部表,外部表,分区表,分桶表(hash分区表),六种导入数据方式,查询分析,HQL与SQL异同:全局排序局部排序,左半连接；Hive工作中小技巧

Hive基础操作–>学hive我们就学三个知识:1. 建表 create table,2. 导入数据 :insert into select,3. 查询分析:selectDDL:表的创建:内部表,外部表,分区表,分桶表DML:导入数据:6种方式1.关于直接使用HDFS命令来导入数据2.insert导出数据:注意:insert into table....select表示将select查询出来内容导入到一张表中insert overwrite directory ....selec

2020-08-09 01:38:25 1009 1

原创智慧出行分析平台-打破双亲委派实现加载我们自定义的类加载器(场景:使用我们自定义实现的spark-shell而不运行spark的shell)

/** * 打破双亲委托机制的，优先加载子类 * 双亲委派模型的作用:保证JDK核心类的优先加载 * 缺陷：如果想执行自己的spark-shell，不想执行spark的，原则违背双亲委派机制 * 解决：打破双亲委派机制 * 方式： * 1、自定义类加载器，重写loadClass方法； * 2、使用线程上下文类加载器； * * spark启动的时候已经加载spark的classpath路径下的jar包，使用线程上下文切换的方式解析执行 * 交互的.

2020-08-02 16:46:47 234

原创 zookeeper-zk实现分布式锁的---代码模板

package app.分布式锁;import java.util.Collections;import java.util.List;import java.util.Random;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.Watcher.Eve

2020-07-31 21:05:02 119

原创 zookeeper-zk实现集群统一配置管理,实现原理

2020-07-30 23:18:53 323

原创 hadoop-zookeeper实现集群监控

2020-07-30 23:03:10 188

原创大数据基础-CDH平台搭建,项目开发的基石

统一版本linux统一使用centoscentos统一使用centos7.6 64位版本jbk版本jdk-8u141zk版本下载地址zookeeper-3.4.5-cdh5.14.2.tar.gz集群规划

2020-04-29 23:21:14 693

原创大数据组件-zookeeper安装,zookeeper的shell客户端操作,节点属性,watch机制zookeeper的javaAPI

目录使用场景集群规划zookeeper安装1.下载zookeeper安装包2.解压3.修改配置文件4.添加myid配置5.安装包分发到其他机器并修改myid的值6.启动zookeeper集群zookeeper的shell客户端操作1.登录zookeeper客户端2.zookeeper客户端操作命令操作实例1.列出Ptath下的所有Znode2.创建永久节点3.创建临时节点4.创建永久化节点5.创建...

2020-04-24 21:31:38 293

原创大数据基础-全流程大数据实验环境搭建,帮你迈出第一步

1.设置网络vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=“static”IPADDR=192.168.52.100NETMASK=255.255.255.0GATEWAY=192.168.52.1DNS1=192.168.52.12.关闭防火墙systemctl stop firewalld.service /...

2020-04-18 22:56:47 623

原创 2021-05-26

import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.statefun.flink.core.StatefulFunctionsConfig;import org.apache.flink.statefun.flink.core.message.MessageFactoryType;import org.apache.flink.statefun.flink.core.message.R

2021-05-26 18:38:50 253

原创 Spring框架增强-全局异常处理机制-根据目录结构自动生成路由前缀-参数效验机制以及自定义效验

全局异常处理机制我们应该做一个统一错误响应,返回给前端的应该是意义明确的json结构{ code:10001 message:xxxx request:GET url}message:是错误响应的具体消息code:代表的是错误类型编码request:表示当前接口访问的url1.GlobalExceptionAdvice//接收项目抛出的异常@ControllerAdvice //特定注解实现加入spring容器public class GlibalExcepti

2020-12-23 09:51:23 378

原创解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘

错误详情:Traceback (most recent call last): File "/opt/module/miniconda3/envs/superset/bin/superset", line 5, in <module> from superset.cli import superset File "/opt/module/miniconda3/envs/superset/lib/python3.6/site-packages/superset/__init__.

2020-12-17 18:03:36 17990 5

原创大数据环境问题linux的Centos7网络不通、Xshell无法远程连接虚拟机...等等一系列网络问题,看这篇文章就够了

三者一致解决搞定虚拟机的网络问题第一者:设置Contos7的网络配置sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33 第二者:将VM的虚拟网络编辑器下的子网、网关设置成Contos7的网络配置第三者:打开计算机本地的网络连接进入VMent8设置DNS服务器地址结束语完成上述三部,确定三部的子网,网关都是一致的即大功告成!!!...

2020-12-14 15:56:01 189

原创企业级通用大数据平台/大数据端口一览表

2020-08-13 20:43:54 743

原创企业级通用大数据平台/接口测试工具:Insomnia,安装及其使用

Insomnia下载地址

2020-08-11 22:50:08 2651

原创工具类/utils-springBoot的controller的公共返回对象

package com.yuge.wechat.questionnaire.common;import java.util.UUID;import lombok.Data;/** * @author : jiangzh * @program : com.example.wechatdemo.common * @description : 公共返回对象 * @date : 2020-03-31 13:46 **/@Datapublic class BaseResponseVO<.

2020-08-10 22:10:30 759

原创企业级数据分析平台/springBoot-controller全局异常管理

我们要通过实现三个类,来实现一个web后端的全局异常管理功能,捕获controller层异常,封装成map集合,进行返回1.实现异常处理的工具类实现一个imooc.naga.core.exception,异常处理的包,定义两个类分别是:1.系统返回状态标识码实体类,2:封装了异常状态值,和异常信息内容的实体类1.系统返回状态标识码实体类package imooc.naga.core.exception;/** * 定义我们系统返回值的状态标志 */public class ErrorCo

2020-08-10 21:19:05 136

原创 hadoop-HDFS企业中负载均衡

在进行文件上传的时候会优先选择客户端所在节点，如果习惯性使用同一个客户端会造成客户端所在节点存储的数据比较多。集群会有一个自动的负载均衡的操作，只不过这个负载均衡的操作比较慢。机器与机器之间磁盘利用率不平衡是HDFS集群非常容易出现的情况，例如：当集群内新增、删除节点，或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时，Map任务可能会分配到没有存储数据的机器，这将导致网络带宽的消耗，也无法很好的进行本地计算。当HDFS负载不均衡时，需要对HDFS进行数据的负载均衡调整，即对各节点机器上数据的存

2020-07-30 00:02:22 245

原创 Hadoop-HDFS常用API,我给封装好了相应的模板,使用哪个粘贴哪个即可

在 Java中操作 HDFS,首先要获得一个客户端实例(HDFS的所以操作都要依赖这个客户端实例来进行)：Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf);1.建立文件夹/** * 创建文件夹 */@Test public void testMkdir() throws Exception { System.out.println(fs.mkdirs(new Path("/ccc/b

2020-07-29 23:54:02 172

原创 hadoop-HDFS流式数据访问

HDFS的文件系统输入输出流:FSDataInputStreamFSDataOutputStream本地文件系统输入输出流:FileOutputStreamFileIntputStream如果是上传:创建HDFS文件系统的输入流创建本地文件的输出流直接对接即可in = new FSDataInputStream(new Path(""))out = new FileOutputStream(new File(""))IOUtils.copy(out,in,4096,true)案例

2020-07-29 20:12:46 1019 1

原创智慧出行数据分析平台-Antlr下载配置(Windows)

官方下载地址java -cp C:\user\antlr-4.5.3\antlr-4.5.3-complete.jar org.antlr.v4.Tool %*java -cp C:\user\antlr-4.5.3\antlr-4.5.3-complete.jar org.antlr.v4.gui.TestRig %*测试一下看是否配置成功出现上述两个内容说明你配置以及成功了!!!...

2020-07-25 22:56:17 133

原创 Java-反射

什么叫反射?反射:将类的各个组成部分封装成为其他对象,这就是反射机制反射的好处可以在程序运行过程中,操作这些对象可以解耦,提供程序的可扩展性获取Class对象的方式Class.forName(“全类名,也就是包名称”):将字节码文件加载到内存,返回Class对象类名称.class:通过类名的属性class来获取对象.getClass():getClass()方法在Object类中定义着不同的获取Class对象方式的使用场景Class.forName(“全类名,也就是包名称”)

2020-07-25 14:42:45 81

原创智慧出行Spark/Utils-实现Spark的流监控--3.基于StreamingListener流进行监控

啊啊啊``

2020-07-18 16:24:18 484

原创 Scala-map详解

HashMap和Map区别是什么?HashMap基于哈希表的Map接口实现,查询效果比map更高,但是HashMap 的实现不是同步的,这意味着它不是线程安全的。它的key、value都可以为null。此外,HashMap中的映射不是有序的.Map集合Map(映射)是一种可迭代的键值对（key/value）结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。Map 也叫哈希表（Hash tables）。Map 有两种类型，可变与不可变，区别在于可变对象可以修改它，而不可变对象不可以。

2020-07-18 11:52:20 949

原创 Java-Thread类中interrupt（）、interrupted（）和isInterrupted（）方法

1.interrupt（）方法其作用是中断此线程（此线程不一定是当前线程，而是指调用该方法的Thread实例所代表的线程），但实际上只是给线程设置一个中断标志，线程仍会继续运行。2. interrupted（）方法作用是测试当前线程是否被中断（检查中断标志），返回一个boolean并清除中断状态，第二次再调用时中断状态已经被清除，将返回一个false。3. isInterrupted（）方法作用是只测试此线程是否被中断，不清除中断状态。...

2020-07-18 11:19:35 185

原创 HDFS错误：Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/“:root:supergroup:drwx------

今天在做Hadoop 分布式实例的时候遇到了这个错误：Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwxrwx— 出错原因：tmp 权限不够hdfs dfs -chmod -R 755 /...

2020-07-18 02:02:36 578

原创疑难杂症-Ambari报错Error occured during stack advisor command invocation

Ambari出现Error occured during stack advisor command invocation错误，并且配置NameNode HA时出现500 status code错误。这里是因为权限问题，修改一下权限就行了：chown -R ambari /var/run/ambari-server这里的ambari换成配置ambari-server时的用户名...

2020-07-18 02:02:23 967

原创智慧出行Spark/Utils-实现Spark的内置离线监控(细粒度任务的监控和异常报警)---2.spark粒度监控实现

啊

2020-07-18 01:51:29 413

原创智慧出行/utils-类型转换工具类:使用场景是,在邮件告警中需要传入properties,我们就用这个工具类转换后传入

package com.cartravel.toolsimport java.utilimport java.util.Propertiesimport org.codehaus.jettison.json.JSONObject/** * 类型转换工具类实现: * 将元组()类型转换成: * 1.tuples元组-->JSONObject * 2.tuples-->HashMap * 3.tuples-->Properti

2020-07-17 23:52:56 143

原创 Redis-redis的特性,使用场景,.多数据库特性,基础命令使用,String,list,set,Jedis对Redis进行操作,Redis工具类

1.redis的特性2.redis的应用场景3.多数据库特性4.基础命令使用help @xxx你想要查的关键字,有这个字的API都会被列出来5.String6.list7.set8.Jedis对Redis进行操作9.Redis工具类

2020-07-17 16:08:41 118

原创智慧出行/spark Streaming-Dstream流优化:1.消费并行度,2.序列化,3.限流,压背,冷启4.cpu空转时间,5.不要在代码中判断这个表是否存在,6.推测执行7.开启动态资源分配

1.设置合理的消费并行度最优的方案是:kafka分区数:broker *3/6/9kafka分区能不能增加,能不能减少?kafka分区数是可以增加的,但是不能减少2.序列化java的序列化,很沉重,会序列化好多无关的,耗时特别长...

2020-07-16 22:40:18 368

原创智慧出行/FAQ-SPARK-4105,只要你spark版本低于2.3版本是一定会出现这个bug的正常的

SPARK-4105错误,只要你spark版本低于2.3版本是一定会出现这个bug的正常的正常的task的生命周期–>50–60s但是突然有一次task运行了2个小时还没有结束我们就怀疑可能是出现了数据倾斜的问题—>查看一下yarn日志:yarn logs -applicationiD YARNID我们看yarn的日志,日常上出现了shuffle fetchError sparkshuffle找不到的错误生成中出现慢磁盘现象解决办法,就是开始推测执行,等于是让task换一台机器进行执行

2020-07-16 22:40:04 199

原创智慧出行-大数据理念:分而治之(归并排序)

2020-07-16 22:39:20 154

原创智慧出行/HBase-实现创建hbase表,和向hbase插入数据

package com.cartravel.hbaseimport com.cartravel.loggings.Loggingimport org.apache.hadoop.hbase.{HColumnDescriptor, HTableDescriptor, TableName}import org.apache.hadoop.hbase.client.{Connection, Put, TableDescriptorBuilder}import org.apache.hadoop.hbas

2020-07-15 22:31:19 238

原创智慧出行/HBase-一劳永逸解决Hbase数据热点问题:2rowkey负载均衡设计

1.hbase热点问题是什么?数据倾斜到一个节点,其余节点空转2.出现haase热点的原因是什么?出现haase热点情况一定是这两个原因:rowkey设计太low没有做预分区3.设计hbase经验rowkey设计原则:唯一,如果不唯一数据就会被覆盖,2散列的,防止出现hbase热点问题,3,字典rowkey长度设计2的整数倍16,32,64,最长不超过64位.只有这样才可以使用高速缓存,如果不是这些,不能被64整除,就只能使用主机内存,那是比较慢的(最快是寄存器,其次是高速缓存,再往后是

2020-07-15 22:12:40 200

原创智慧出行/HBase-一劳永逸解决Hbase数据热点问题:1.java实现HBase建表并且预分区

啊啊啊

2020-07-15 17:17:23 362

原创智慧出行-通过实现一个logging接口工具类:自定义维护我们的日志,后面我们任何类都可以去实现整个logging接口类,来实现设置不同日志级别功能

package com.cartravel.loggingsimport org.slf4j.LoggerFactory/** * 自定义维护我们的日志,后面我们任何类都可以去实现整个logging类来实现 * logging类这里面的功能 */trait Logging { lazy val logger = LoggerFactory.getLogger(this.getClass) def trace(message: => Any): Unit = {

2020-07-15 16:46:31 132

原创智慧出行/HBase-HBase连接工具类:实现创建HBase连接池,关闭HBase连接

maven依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.0.0</version> </dependency> <dependency>

2020-07-15 11:22:59 576

原创智慧出行/FAQ-报Offsets out of range with no configured reset policy for partition错误

Offsets out of range with no configured reset policy for partition假设我们有10000个数据sgment就把它分为0-1000,1000-2000,2000-3000…当我们消费到4500的时候报错了,然后也没有进行处理,过了kafka的生命周期,kafka就把数据全部清理掉了,当kafka在次进行消费,4501时没有数据了就报Offsets out of range with no configured reset policy f

2020-07-15 00:08:04 3735

原创智慧出行-当我们想使spark集成kafka的时候,需要创建一个kafkaParams,这个map集合一般使用IDEA的args传参,文章将会演示,实现步骤

package com.cartravel.programAppimport org.codehaus.jackson.map.deser.std.StringDeserializerobject StreamApp { def main(args: Array[String]): Unit = { //传入5个参数,如果不足5个,直接打印异常,退出 if (args.length<5){ System.err.println("Usage:\n"+

2020-07-13 15:23:35 501

原创智慧出行-sparkConf,sparkSesson,streamingContext的生产必配配置,我把他做成了一个工具类,具体实现文章中会详细描述

1.application.conf#配置spark相关参数spark.worker.timeout="500"spark.rpc.askTimeout="600s"spark.network.timeoout="600s"spark.cores.max="10"spark.task.maxFailures="5"spark.speculation="true"spark.driver.allowMutilpleContext="true"spark.serializer="org.apa

2020-07-13 12:25:26 182

log4j.properties

ordercomment.csv

data_flow.dat

空空如也