清凉可口-CSDN博客

原创 OSD层的数据需要做数据清洗吗？

问题：ODS有的公司说几乎不用处理，有的却说这一层要做第一次数据清洗，那么你怎么看呢？这个问题，从本质上来看，其实是和分层的设计以及公司的业务场景相关的，先抛开公司的业务场景来看ODS的这几，我们其实是希望ODS的数据尽量“原汁原味”，但是又相对的干净，那么这个尺度和标准怎么来把握？简单来说，我们会让ODS层的数据内容和粒度与原始数据一致，然后我们会做表命名统一，字段命名统一，数据落地监控等内容...

2019-05-20 15:15:58 671

转载 java面试题（Servlet生命周期和每个过程）

标题Servlet生命周期包含了下面四个阶段1、加载和实例化当Servlet容器启动或客户端发送一个请求时，Servlet容器会查找内存中是否存在该Servlet实例，若存在，则直接读取该实例响应请求；如果不存在，就创建一个Servlet实例。2、初始化实例化后，Servlet容器将调用Servlet的init()方法进行初始化(一些准备工作或资源预加载工作)。3、服务初始化后，Ser...

2019-04-27 16:48:48 558

转载 liunx查看空间容量

linux查看空间容量的命令是：(可以加参数查看相关信息)df -hl显示格式为：文件系统容量已用可用已用% 挂载点Filesystem Size Used Avail Use% Mounted on/dev/hda2 45G 19G 24G 44% //dev/hda1 ...

2019-04-24 14:25:49 215

转载 split(" ")和split(" ",-1)的区别

1、当字符串最后一位有值时，两者没有区别2、当字符串最后一位或者N位是分隔符时，前者不会继续切分，而后者继续切分。即前者不保留null值，后者保留。...

2019-04-23 16:55:42 345

原创查看parquet数据的schema

查看parquet数据的schemaval path = "hdfs上的数据路径"val df = spark.read.parquet(path)df.printSchema()

2019-04-20 16:40:48 3283

翻译 kafka2.2.0版本更新的新功能

kafka2.2.02.2.0版本发布于2019年3月22日kafka 2.2.0包含许多重要的新功能，以下是一些值得注意的变化的摘要：添加了对自定义主题名称的SSL支持允许SASL连接定期重新进行身份验证命令行工具bin/kafka-topics.sh添加了AdminClient支持改进的使用者组管理：默认group.id是null空字符串API改进：制片人：介绍 close...

2019-04-18 10:24:55 1624

原创线程的生命周期

线程的生命周期状态：与人有生老病死一样，线程也是有生命周期的，线程要经历的是新建、就绪、运行(活动)、阻塞、和死亡五种不同的状态。新建状态：当线程对象被创建后，就进入了新建状态。例：Thread t = new MyThread();就绪状态：当调用线程对象的start()方法(t.start()

2019-04-17 17:18:16 71

原创 JAVA中list的三种遍历方法

创建list集合List<String> list = new ArrayList<>(); list.add("hadoop"); list.add("spark"); list.add("hive"); list.add("MySQL");第一种方法：普通for循环for(int i = 0; i<list.size(); i++){ Syste...

2019-04-17 15:53:32 116

原创 hive表修复元数据

创建完表后希望恢复hdfs上的元数据可以使用msck repair table tablename；(tablename是你的表的名字)方法来进行修复元数据。上面是一层分区的情况执行的。下面还有多层分区情况执行的：set hive.msck.path.validation=ignore;msck repair table tablename;来进行多层分区修复。...

2019-04-16 11:46:32 5066

原创 idea右边侧边栏的Maven Projects找不到了怎么调出来

点击菜单栏View→Tool Windows→Maven Projects就可以调出来了

2019-04-13 10:39:47 16276 1

转载数据仓库模型说明

数仓概述数据仓库的建设是一个过程，而不是一个项目。在这个过程中我们需要形成自己的规范，以方便管理和维护。在数据仓库的建设过程中，不仅会面临着公司业务迅速发展，业务系统迭代变更，需要对业务系统数据进行相应的整合，形成公司完整的统一数据视图；而且基于数据仓库的应用也是多样化的，比如支撑自己企业的数据可视化平台、即席查询、对策略提供数据支持等。数仓模型1、模型层定义模型层次英文全称...

2019-04-12 21:02:54 203

转载 IDEA使用SparkSQL本地操作Hive的小Demo

在本地使用Spark操作Hive1 、使用IDEA创建一个Maven项目2 、从集群中拷贝出hive的配置 -> hive-site.xml3 、从集群中拷贝出hadoop的配置core-site.xml和hdfs-site.xml （非必须，对某些版本来说只需要hive-site.xml即可，最好都拷过来）4 、把上面三个文件放到IDEA的resources目录下5 、编写De...

2019-04-12 20:51:45 657

原创 hive显示当前库名

开启后可以看到当前hive库名防止创错库表将set hive.cli.print.current.db设置成true。hive> set hive.cli.print.current.db=true;hive (gp1817_dw)>

2019-04-12 20:25:36 1254

原创动态分区严格模式

FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrictFAILED: SemanticE...

2019-04-12 20:03:45 1153

原创 hive删除包含表的库

当删除一个库的时候，若库里面有表则提示不能删除hive> drop database gp1817_dim;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database gp1817_dim is...

2019-04-12 19:24:40 1008

转载 MapReduce的原理及执行过程

MapReduce的原理及执行过程MapReduce简介MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。MapReduce执行流程MapReduce原理MapReduce的执行步骤：1、Map任务处理1.1 读取...

2018-12-26 16:39:21 104

weixin_43825553的博客