自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive和sparksql学习资料

1.hive学习参考资料HIVE学习(一) —— 初始hivehttps://my.oschina.net/penglonglog/blog/3096119HIVE学习(二) —— Hive的数据表https://my.oschina.net/penglonglog/blog/3108435HIVE学习(三) —— hive的基本使用https://my.oschina.net/penglonglog/blog/3108445HIVE学习(四) —— Hive 的元数据信息https

2021-04-01 17:25:30 103

原创 数据表的类型

全量表顾名思义是存储了全部数据的表,全量表没有分区的,所有数据都储存在一个分区中。全量表存储的是截至到目前最新状态的全部记录。增量表增量表是相对于全量表而言的,增量表是每次把新增的数据追加到原表中,增量表中每次新增的数据单独存储在一个分区中。快照表快照表就是截至过去某个时间点的所有数据,关注更多的是过去某个时间点的状态,即快照表主要存储的是历史状态的表。每次快照的数据单独储存在一个分区中。拉链表拉链表储存了某个主体的一整套连续动作的信息。与快照表类似,但拉链表储存的是在快照表的基

2022-03-12 16:31:47 1127

原创 数据治理实践

美团配送数据治理实践 - 知乎

2022-03-04 17:07:57 174

原创 数据仓库的价值

传统数据库,是数据仓库数据的来源(之一),但他们能提供的服务不同,数据库提供即时的curd操作服务,而数据仓库提供海量面向分析人员数据服务。数据仓库可以提供什么价值?在上面学生信息管理系统的举例中,需求十分的简单,在数据库中直接group by都可以看到结果。但如果我们的分析需求变得复杂的时候,数据仓库便能提供远超数据库的使用体验。一个比较典型的场景:新增用户的分析。比如我在一个网游公司,后端有一张user表,记录了所有的用户数据,每天都会有新的用户注册,所以每天都会有新的数据Insert进

2022-03-04 16:47:48 661

原创 数据仓库维度建模流程

对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。1. 维度建模理论概要1.1 维度设计的主要流程1.1.1 选择业务过程业务过程是组织完成的操作性活动,例如:获得订单、处理保险索赔、学生课程注册或每个月每个账单的快照等。业务过程事件建立或获取性能度量,并转换成事实表中的事实。过程定义了特定的设计目标以及对粒度、维度、事实的定义。1.1.2 声明粒度粒度用于确定某一个事实表中

2022-03-04 16:31:09 572

原创 什么是可加,半可加,不可加事实?

众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。那么事实表中的数字度量分三种:1.可加事实,2.半可加事实,3.不可加事实下面让我们来看看它们的定义与区别1.可加事实可加事实指的是该度量可以按照和事实表关联的任一维度进行汇总。比如商品的单价,可以按照品类维度进行汇总,按照店铺维度进行汇总等等。(20201105修正,这里的例子应该是每天新增人口数,这个事实可以基于各个关联的维度汇总,商品单价的话不能基于时间维度汇总,应该属于半

2022-03-04 16:25:13 1720

原创 hive和mysql字符集

表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(一些命令直接不能执行),详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1。1. 但是,因为MySQL通过my.cnf一般情况下设置为utf-8编码,因此需要在创建Hive元数据库时,需要将MySQL中的hive库改回latin1。alter database hive character s

2021-07-27 17:26:09 895

原创 mysql 服务器卸载

https://www.cnblogs.com/connected/p/12605399.html

2021-07-14 23:10:34 96

原创 CentOS7.5安装Azkaban

https://www.cnblogs.com/frankdeng/p/9284630.html

2021-07-09 23:33:29 115

原创 mysql腾讯云安装

https://www.cnblogs.com/yangyang2018/p/10798859.html

2021-07-07 22:59:09 68

原创 hive下载

hive下载https://downloads.apache.org/hive/hive-2.3.9/

2021-07-07 22:48:19 268

转载 linux下添加用户并赋予root权限

1、添加用户,首先用adduser命令添加一个普通用户,命令如下:#adduser tommy//添加一个名为tommy的用户#passwd tommy //修改密码Changing password for user tommy.New UNIX password: //在这里输入新密码Retype new UNIX password: //再次输入新密码passwd: all authentication tokens updated successfully....

2021-06-21 21:37:53 17932

原创 hive-set设置总结

直接set命令可以看到所有变量值。set单个参数,可以看见这个参数的值。常用hiveconfHive相关的配置属性总结set hive.cli.print.current.db=true;在cli hive提示符后显示当前数据库。set hive.cli.print.header=true;显示表头。select时会显示对应字段。set hive.mapred.mode=strict;防止笛卡儿积的执行;如果对分区表查询,且没有在where中对分区字段进行限制,报错FAILED: Semant...

2021-05-14 11:34:09 3844

转载 Oracle trunc()函数的用法

--Oracle trunc()函数的用法/**************日期********************/1.select trunc(sysdate) from dual --2013-01-06 今天的日期为2013-01-062.select trunc(sysdate, 'mm') from dual --2013-01-01 返回当月第一天.3.select

2017-01-16 14:38:00 182

原创 git、github for window、tortoisegit的区别

想知道软件git、github for window、tortoisegit有什么区别?github for window、tortoisegit是git协议的一种实现,那git软件也是git协议一种实现。这样理解对吗?添加评论分享按投票排序按时间排序2 个回答小猪,我就是觉得命令

2016-01-19 21:25:38 1069

原创 svn使用学习

http://www.cnblogs.com/armyfai/p/3985660.html闪存首页新随笔管理订阅SVN使用教程总结SVN简介: 为什么要使用SVN?      程序员在编写程序的过程中,每个程序员都会生成很多不同的版本,这就需要程序员有效的管理代码,在需要的时候可以迅速,准确取出相应的版本。

2015-12-29 17:51:00 299

原创 php官方文档学习 w3c

http://www.w3school.com.cn/php/func_string_explode.asp

2015-12-25 18:47:41 279

原创 JSON数据格式

JSON 数据格式 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。JSON采用完全独立于语言的文本格式,这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。基础结构JSON建构于两种结构:1. “名称/值”对的集合(A collection of name/value pair

2015-12-25 14:15:01 494

原创 ssh命令

http://wenku.baidu.com/link?url=v2aJSu1AywAtCR5eTmQ1gE1_GtPOc6Miqy62ssWhPx90dsIYLDELol5JdOxr25cA3DMPIuTQo4-x-rBt_rdLq--wMA0jP5eRTGZ7pJS8LVW

2015-12-16 23:36:20 225

喻在江-数仓作品.xlsx

数仓作品

2022-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除