自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(146)
  • 资源 (3)
  • 收藏
  • 关注

原创 千亿数仓/Hive-基础操作:建表:内部表,外部表,分区表,分桶表(hash分区表),六种导入数据方式,查询分析,HQL与SQL异同:全局排序局部排序,左半连接;Hive工作中小技巧

Hive基础操作–>学hive我们就学三个知识:1. 建表 create table,2. 导入数据 :insert into select,3. 查询分析:selectDDL:表的创建:内部表,外部表,分区表,分桶表DML:导入数据:6种方式1.关于直接使用HDFS命令来导入数据2.insert导出数据:注意:insert into table....select表示将select查询出来内容导入到一张表中insert overwrite directory ....selec

2020-08-09 01:38:25 1009 1

原创 智慧出行分析平台-打破双亲委派实现加载我们自定义的类加载器(场景:使用我们自定义实现的spark-shell而不运行spark的shell)

/** * 打破双亲委托机制的,优先加载子类 * 双亲委派模型的作用:保证JDK核心类的优先加载 * 缺陷:如果想执行自己的spark-shell, 不想执行spark的,原则违背双亲委派机制 * 解决:打破双亲委派机制 * 方式: * 1、自定义类加载器,重写loadClass方法; * 2、使用线程上下文类加载器; * * spark启动的时候已经加载spark的classpath路径下的jar包,使用线程上下文切换的方式解析执行 * 交互的.

2020-08-02 16:46:47 234

原创 zookeeper-zk实现分布式锁的---代码模板

package app.分布式锁;import java.util.Collections;import java.util.List;import java.util.Random;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.Watcher.Eve

2020-07-31 21:05:02 119

原创 zookeeper-zk实现集群统一配置管理,实现原理

2020-07-30 23:18:53 323

原创 hadoop-zookeeper实现集群监控

2020-07-30 23:03:10 188

原创 大数据基础-CDH平台搭建,项目开发的基石

统一版本linux统一使用centoscentos统一使用centos7.6 64位版本jbk版本jdk-8u141zk版本下载地址zookeeper-3.4.5-cdh5.14.2.tar.gz集群规划

2020-04-29 23:21:14 693

原创 大数据组件-zookeeper安装,zookeeper的shell客户端操作,节点属性,watch机制zookeeper的javaAPI

目录使用场景集群规划zookeeper安装1.下载zookeeper安装包2.解压3.修改配置文件4.添加myid配置5.安装包分发到其他机器并修改myid的值6.启动zookeeper集群zookeeper的shell客户端操作1.登录zookeeper客户端2.zookeeper客户端操作命令操作实例1.列出Ptath下的所有Znode2.创建永久节点3.创建临时节点4.创建永久化节点5.创建...

2020-04-24 21:31:38 293

原创 大数据基础-全流程大数据实验环境搭建,帮你迈出第一步

1.设置网络vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=“static”IPADDR=192.168.52.100NETMASK=255.255.255.0GATEWAY=192.168.52.1DNS1=192.168.52.12.关闭防火墙systemctl stop firewalld.service /...

2020-04-18 22:56:47 623

原创 2021-05-26

import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.statefun.flink.core.StatefulFunctionsConfig;import org.apache.flink.statefun.flink.core.message.MessageFactoryType;import org.apache.flink.statefun.flink.core.message.R

2021-05-26 18:38:50 253

原创 Spring框架增强-全局异常处理机制-根据目录结构自动生成路由前缀-参数效验机制以及自定义效验

全局异常处理机制我们应该做一个统一错误响应,返回给前端的应该是意义明确的json结构{ code:10001 message:xxxx request:GET url}message:是错误响应的具体消息code:代表的是错误类型编码request:表示当前接口访问的url1.GlobalExceptionAdvice//接收项目抛出的异常@ControllerAdvice //特定注解实现加入spring容器public class GlibalExcepti

2020-12-23 09:51:23 378

原创 解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘

错误详情:Traceback (most recent call last): File "/opt/module/miniconda3/envs/superset/bin/superset", line 5, in <module> from superset.cli import superset File "/opt/module/miniconda3/envs/superset/lib/python3.6/site-packages/superset/__init__.

2020-12-17 18:03:36 17990 5

原创 大数据环境问题linux的Centos7网络不通、Xshell无法远程连接虚拟机...等等一系列网络问题,看这篇文章就够了

三者一致解决搞定虚拟机的网络问题第一者:设置Contos7的网络配置sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33 第二者:将VM的虚拟网络编辑器下的子网、网关设置成Contos7的网络配置第三者:打开计算机本地的网络连接进入VMent8设置DNS服务器地址结束语完成上述三部,确定三部的子网,网关都是一致的即大功告成!!!...

2020-12-14 15:56:01 189

原创 企业级通用大数据平台/大数据端口一览表

2020-08-13 20:43:54 743

原创 企业级通用大数据平台/接口测试工具:Insomnia,安装及其使用

Insomnia下载地址

2020-08-11 22:50:08 2651

原创 工具类/utils-springBoot的controller的公共返回对象

package com.yuge.wechat.questionnaire.common;import java.util.UUID;import lombok.Data;/** * @author : jiangzh * @program : com.example.wechatdemo.common * @description : 公共返回对象 * @date : 2020-03-31 13:46 **/@Datapublic class BaseResponseVO<.

2020-08-10 22:10:30 759

原创 企业级数据分析平台/springBoot-controller全局异常管理

我们要通过实现三个类,来实现一个web后端的全局异常管理功能,捕获controller层异常,封装成map集合,进行返回1.实现异常处理的工具类实现一个imooc.naga.core.exception,异常处理的包,定义两个类分别是:1.系统返回状态标识码实体类,2:封装了异常状态值,和异常信息内容的实体类1.系统返回状态标识码实体类package imooc.naga.core.exception;/** * 定义我们系统返回值的状态标志 */public class ErrorCo

2020-08-10 21:19:05 136

原创 hadoop-HDFS企业中负载均衡

在进行文件上传的时候会优先选择客户端所在节点,如果习惯性使用同一个客户端会造成客户端所在节 点存储的数据比较多。集群会有一个自动的负载均衡的操作,只不过这个负载均衡的操作比较慢。机器与机器之间磁盘利用率不平衡是HDFS集群非常容易出现的情况,例如:当集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时,Map任务可能会分配到没有存储数据 的机器,这将导致网络带宽的消耗,也无法很好的进行本地计算。当HDFS负载不均衡时,需要对HDFS进行数据的负载均衡调整,即对各节点机器上数据的存

2020-07-30 00:02:22 245

原创 Hadoop-HDFS常用API,我给封装好了相应的模板,使用哪个粘贴哪个即可

在 Java中操作 HDFS,首先要获得一个客户端实例(HDFS的所以操作都要依赖这个客户端实例来进行):Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf);1.建立文件夹/** * 创建文件夹 */@Test public void testMkdir() throws Exception { System.out.println(fs.mkdirs(new Path("/ccc/b

2020-07-29 23:54:02 172

原创 hadoop-HDFS流式数据访问

HDFS的文件系统输入输出流:FSDataInputStreamFSDataOutputStream本地文件系统输入输出流:FileOutputStreamFileIntputStream如果是上传:创建HDFS文件系统的输入流创建本地文件的输出流直接对接即可in = new FSDataInputStream(new Path(""))out = new FileOutputStream(new File(""))IOUtils.copy(out,in,4096,true)案例

2020-07-29 20:12:46 1019 1

原创 智慧出行数据分析平台-Antlr下载配置(Windows)

官方下载地址java -cp C:\user\antlr-4.5.3\antlr-4.5.3-complete.jar org.antlr.v4.Tool %*java -cp C:\user\antlr-4.5.3\antlr-4.5.3-complete.jar org.antlr.v4.gui.TestRig %*测试一下看是否配置成功出现上述两个内容说明你配置以及成功了!!!...

2020-07-25 22:56:17 133

原创 Java-反射

什么叫反射?反射:将类的各个组成部分封装成为其他对象,这就是反射机制反射的好处可以在程序运行过程中,操作这些对象可以解耦,提供程序的可扩展性获取Class对象的方式Class.forName(“全类名,也就是包名称”):将字节码文件加载到内存,返回Class对象类名称.class:通过类名的属性class来获取对象.getClass():getClass()方法在Object类中定义着不同的获取Class对象方式的使用场景Class.forName(“全类名,也就是包名称”)

2020-07-25 14:42:45 81

原创 智慧出行Spark/Utils-实现Spark的流监控--3.基于StreamingListener流进行监控

啊啊啊``

2020-07-18 16:24:18 484

原创 Scala-map详解

HashMap和Map区别是什么?HashMap基于 哈希表的Map接口实现,查询效果比map更高,但是HashMap 的实现不是同步的,这意味着它不是线程安全的。它的key、value都可以为null。此外,HashMap中的映射不是有序的.Map集合Map(映射)是一种可迭代的键值对(key/value)结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。Map 也叫哈希表(Hash tables)。Map 有两种类型,可变与不可变,区别在于可变对象可以修改它,而不可变对象不可以。

2020-07-18 11:52:20 949

原创 Java-Thread类中interrupt()、interrupted()和isInterrupted()方法

1.interrupt()方法其作用是中断此线程(此线程不一定是当前线程,而是指调用该方法的Thread实例所代表的线程),但实际上只是给线程设置一个中断标志,线程仍会继续运行。2. interrupted()方法作用是测试当前线程是否被中断(检查中断标志),返回一个boolean并清除中断状态,第二次再调用时中断状态已经被清除,将返回一个false。3. isInterrupted()方法作用是只测试此线程是否被中断 ,不清除中断状态。...

2020-07-18 11:19:35 185

原创 HDFS错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/“:root:supergroup:drwx------

今天在做Hadoop 分布式实例的时候遇到了这个错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwxrwx— 出错原因:tmp 权限不够hdfs dfs -chmod -R 755 /...

2020-07-18 02:02:36 578

原创 疑难杂症-Ambari报错Error occured during stack advisor command invocation

Ambari出现Error occured during stack advisor command invocation错误,并且配置NameNode HA时出现500 status code错误。这里是因为权限问题,修改一下权限就行了:chown -R ambari /var/run/ambari-server这里的ambari换成配置ambari-server时的用户名...

2020-07-18 02:02:23 967

原创 智慧出行Spark/Utils-实现Spark的内置离线监控(细粒度任务的监控和异常报警)---2.spark粒度监控实现

2020-07-18 01:51:29 413

原创 智慧出行/utils-类型转换工具类:使用场景是,在邮件告警中需要传入properties,我们就用这个工具类转换后传入

package com.cartravel.toolsimport java.utilimport java.util.Propertiesimport org.codehaus.jettison.json.JSONObject/** * 类型转换工具类实现: * 将元组()类型转换成: * 1.tuples元组-->JSONObject * 2.tuples-->HashMap * 3.tuples-->Properti

2020-07-17 23:52:56 143

原创 Redis-redis的特性,使用场景,.多数据库特性,基础命令使用,String,list,set,Jedis对Redis进行操作,Redis工具类

1.redis的特性2.redis的应用场景3.多数据库特性4.基础命令使用help @xxx你想要查的关键字,有这个字的API都会被列出来5.String6.list7.set8.Jedis对Redis进行操作9.Redis工具类

2020-07-17 16:08:41 118

原创 智慧出行/spark Streaming-Dstream流优化:1.消费并行度,2.序列化,3.限流,压背,冷启4.cpu空转时间,5.不要在代码中判断这个表是否存在,6.推测执行7.开启动态资源分配

1.设置合理的消费并行度最优的方案是:kafka分区数:broker *3/6/9kafka分区能不能增加,能不能减少?kafka分区数是可以增加的,但是不能减少2.序列化java的序列化,很沉重,会序列化好多无关的,耗时特别长...

2020-07-16 22:40:18 368

原创 智慧出行/FAQ-SPARK-4105,只要你spark版本低于2.3版本是一定会出现这个bug的正常的

SPARK-4105错误,只要你spark版本低于2.3版本是一定会出现这个bug的正常的正常的task的生命周期–>50–60s但是突然有一次task运行了2个小时还没有结束我们就怀疑可能是出现了数据倾斜的问题—>查看一下yarn日志:yarn logs -applicationiD YARNID我们看yarn的日志,日常上出现了shuffle fetchError sparkshuffle找不到的错误生成中出现慢磁盘现象解决办法,就是开始推测执行,等于是让task换一台机器进行执行

2020-07-16 22:40:04 199

原创 智慧出行-大数据理念:分而治之(归并排序)

2020-07-16 22:39:20 154

原创 智慧出行/HBase-实现创建hbase表,和向hbase插入数据

package com.cartravel.hbaseimport com.cartravel.loggings.Loggingimport org.apache.hadoop.hbase.{HColumnDescriptor, HTableDescriptor, TableName}import org.apache.hadoop.hbase.client.{Connection, Put, TableDescriptorBuilder}import org.apache.hadoop.hbas

2020-07-15 22:31:19 238

原创 智慧出行/HBase-一劳永逸解决Hbase数据热点问题:2rowkey负载均衡设计

1.hbase热点问题是什么?数据倾斜到一个节点,其余节点空转2.出现haase热点的原因是什么?出现haase热点情况一定是这两个原因:rowkey设计太low没有做预分区3.设计hbase经验rowkey设计原则:唯一,如果不唯一数据就会被覆盖,2散列的,防止出现hbase热点问题,3,字典rowkey长度设计2的整数倍16,32,64,最长不超过64位.只有这样才可以使用高速缓存,如果不是这些,不能被64整除,就只能使用主机内存,那是比较慢的(最快是寄存器,其次是高速缓存,再往后是

2020-07-15 22:12:40 200

原创 智慧出行/HBase-一劳永逸解决Hbase数据热点问题:1.java实现HBase建表并且预分区

啊啊啊

2020-07-15 17:17:23 362

原创 智慧出行-通过实现一个logging接口工具类:自定义维护我们的日志,后面我们任何类都可以去实现整个logging接口类,来实现设置不同日志级别功能

package com.cartravel.loggingsimport org.slf4j.LoggerFactory/** * 自定义维护我们的日志,后面我们任何类都可以去实现整个logging类来实现 * logging类这里面的功能 */trait Logging { lazy val logger = LoggerFactory.getLogger(this.getClass) def trace(message: => Any): Unit = {

2020-07-15 16:46:31 132

原创 智慧出行/HBase-HBase连接工具类:实现创建HBase连接池,关闭HBase连接

maven依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>2.0.0</version> </dependency> <dependency>

2020-07-15 11:22:59 576

原创 智慧出行/FAQ-报Offsets out of range with no configured reset policy for partition错误

Offsets out of range with no configured reset policy for partition假设我们有10000个数据sgment就把它分为0-1000,1000-2000,2000-3000…当我们消费到4500的时候报错了,然后也没有进行处理,过了kafka的生命周期,kafka就把数据全部清理掉了,当kafka在次进行消费,4501时没有数据了就报Offsets out of range with no configured reset policy f

2020-07-15 00:08:04 3735

原创 智慧出行-当我们想使spark集成kafka的时候,需要创建一个kafkaParams,这个map集合一般使用IDEA的args传参,文章将会演示,实现步骤

package com.cartravel.programAppimport org.codehaus.jackson.map.deser.std.StringDeserializerobject StreamApp { def main(args: Array[String]): Unit = { //传入5个参数,如果不足5个,直接打印异常,退出 if (args.length<5){ System.err.println("Usage:\n"+

2020-07-13 15:23:35 501

原创 智慧出行-sparkConf,sparkSesson,streamingContext的生产必配配置,我把他做成了一个工具类,具体实现文章中会详细描述

1.application.conf#配置spark相关参数spark.worker.timeout="500"spark.rpc.askTimeout="600s"spark.network.timeoout="600s"spark.cores.max="10"spark.task.maxFailures="5"spark.speculation="true"spark.driver.allowMutilpleContext="true"spark.serializer="org.apa

2020-07-13 12:25:26 182

log4j.properties

Java接口实现hadoop操作后在窗口打印,大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中.....................

2020-05-05

ordercomment.csv

大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中............................................................................

2020-05-05

data_flow.dat

大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中

2020-05-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除