自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 OSD层的数据需要做数据清洗吗?

问题:ODS有的公司说几乎不用处理,有的却说这一层要做第一次数据清洗,那么你怎么看呢?这个问题,从本质上来看,其实是和分层的设计以及公司的业务场景相关的,先抛开公司的业务场景来看ODS的这几,我们其实是希望ODS的数据尽量“原汁原味”,但是又相对的干净,那么这个尺度和标准怎么来把握?简单来说,我们会让ODS层的数据内容和粒度与原始数据一致,然后我们会做表命名统一,字段命名统一,数据落地监控等内容...

2019-05-20 15:15:58 671

转载 java面试题(Servlet生命周期和每个过程)

标题Servlet生命周期包含了下面四个阶段1、加载和实例化当Servlet容器启动或客户端发送一个请求时,Servlet容器会查找内存中是否存在该Servlet实例,若存在,则直接读取该实例响应请求;如果不存在,就创建一个Servlet实例。2、初始化实例化后,Servlet容器将调用Servlet的init()方法进行初始化(一些准备工作或资源预加载工作)。3、服务初始化后,Ser...

2019-04-27 16:48:48 558

转载 liunx查看空间容量

linux查看空间容量的命令是:(可以加参数查看相关信息)df -hl显示格式为:文件系统 容量 已用 可用 已用% 挂载点Filesystem Size Used Avail Use% Mounted on/dev/hda2 45G 19G 24G 44% //dev/hda1 ...

2019-04-24 14:25:49 215

转载 split(" ")和split(" ",-1)的区别

1、当字符串最后一位有值时,两者没有区别2、当字符串最后一位或者N位是分隔符时,前者不会继续切分,而后者继续切分。即前者不保留null值,后者保留。...

2019-04-23 16:55:42 345

原创 查看parquet数据的schema

查看parquet数据的schemaval path = "hdfs上的数据路径"val df = spark.read.parquet(path)df.printSchema()

2019-04-20 16:40:48 3283

翻译 kafka2.2.0版本更新的新功能

kafka2.2.02.2.0版本发布于2019年3月22日kafka 2.2.0包含许多重要的新功能,以下是一些值得注意的变化的摘要:添加了对自定义主题名称的SSL支持允许SASL连接定期重新进行身份验证命令行工具bin/kafka-topics.sh添加了AdminClient支持改进的使用者组管理:默认group.id是null空字符串API改进:制片人:介绍 close...

2019-04-18 10:24:55 1624

原创 线程的生命周期

线程的生命周期状态:与人有生老病死一样,线程也是有生命周期的,线程要经历的是新建、就绪、运行(活动)、阻塞、和死亡五种不同的状态。新建状态:当线程对象被创建后,就进入了新建状态。例:Thread t = new MyThread();就绪状态:当调用线程对象的start()方法(t.start()

2019-04-17 17:18:16 71

原创 JAVA中list的三种遍历方法

创建list集合List<String> list = new ArrayList<>(); list.add("hadoop"); list.add("spark"); list.add("hive"); list.add("MySQL");第一种方法:普通for循环for(int i = 0; i<list.size(); i++){ Syste...

2019-04-17 15:53:32 116

原创 hive表修复元数据

创建完表后希望恢复hdfs上的元数据可以使用msck repair table tablename;(tablename是你的表的名字)方法来进行修复元数据。上面是一层分区的情况执行的。下面还有多层分区情况执行的:set hive.msck.path.validation=ignore;msck repair table tablename;来进行多层分区修复。...

2019-04-16 11:46:32 5066

原创 idea右边侧边栏的Maven Projects找不到了怎么调出来

点击菜单栏View→Tool Windows→Maven Projects就可以调出来了

2019-04-13 10:39:47 16276 1

转载 数据仓库模型说明

数仓概述数据仓库的建设是一个过程,而不是一个项目。在这个过程中我们需要形成自己的规范,以方便管理和维护。在数据仓库的建设过程中,不仅会面临着公司业务迅速发展,业务系统迭代变更,需要对业务系统数据进行相应的整合,形成公司完整的统一数据视图;而且基于数据仓库的应用也是多样化的,比如支撑自己企业的数据可视化平台、即席查询、对策略提供数据支持等。数仓模型1、 模型层定义模型层次英文全称...

2019-04-12 21:02:54 203

转载 IDEA使用SparkSQL本地操作Hive的小Demo

在本地使用Spark操作Hive1 、使用IDEA创建一个Maven项目2 、从集群中拷贝出hive的配置 -> hive-site.xml3 、从集群中拷贝出hadoop的配置core-site.xml和hdfs-site.xml (非必须,对某些版本来说只需要hive-site.xml即可,最好都拷过来)4 、把上面三个文件放到IDEA的resources目录下5 、编写De...

2019-04-12 20:51:45 657

原创 hive显示当前库名

开启后可以看到当前hive库名防止创错库表将set hive.cli.print.current.db设置成true。hive> set hive.cli.print.current.db=true;hive (gp1817_dw)>

2019-04-12 20:25:36 1254

原创 动态分区严格模式

FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrictFAILED: SemanticE...

2019-04-12 20:03:45 1153

原创 hive删除包含表的库

当删除一个库的时候 ,若库里面有表则提示不能删除hive> drop database gp1817_dim;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database gp1817_dim is...

2019-04-12 19:24:40 1008

转载 MapReduce的原理及执行过程

MapReduce的原理及执行过程MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程MapReduce原理MapReduce的执行步骤:1、Map任务处理1.1 读取...

2018-12-26 16:39:21 104

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除