- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 hive和sparksql学习资料
1.hive学习参考资料HIVE学习(一) —— 初始hivehttps://my.oschina.net/penglonglog/blog/3096119HIVE学习(二) —— Hive的数据表https://my.oschina.net/penglonglog/blog/3108435HIVE学习(三) —— hive的基本使用https://my.oschina.net/penglonglog/blog/3108445HIVE学习(四) —— Hive 的元数据信息https
2021-04-01 17:25:30 103
原创 数据表的类型
全量表顾名思义是存储了全部数据的表,全量表没有分区的,所有数据都储存在一个分区中。全量表存储的是截至到目前最新状态的全部记录。增量表增量表是相对于全量表而言的,增量表是每次把新增的数据追加到原表中,增量表中每次新增的数据单独存储在一个分区中。快照表快照表就是截至过去某个时间点的所有数据,关注更多的是过去某个时间点的状态,即快照表主要存储的是历史状态的表。每次快照的数据单独储存在一个分区中。拉链表拉链表储存了某个主体的一整套连续动作的信息。与快照表类似,但拉链表储存的是在快照表的基
2022-03-12 16:31:47 1127
原创 数据仓库的价值
传统数据库,是数据仓库数据的来源(之一),但他们能提供的服务不同,数据库提供即时的curd操作服务,而数据仓库提供海量面向分析人员数据服务。数据仓库可以提供什么价值?在上面学生信息管理系统的举例中,需求十分的简单,在数据库中直接group by都可以看到结果。但如果我们的分析需求变得复杂的时候,数据仓库便能提供远超数据库的使用体验。一个比较典型的场景:新增用户的分析。比如我在一个网游公司,后端有一张user表,记录了所有的用户数据,每天都会有新的用户注册,所以每天都会有新的数据Insert进
2022-03-04 16:47:48 661
原创 数据仓库维度建模流程
对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。1. 维度建模理论概要1.1 维度设计的主要流程1.1.1 选择业务过程业务过程是组织完成的操作性活动,例如:获得订单、处理保险索赔、学生课程注册或每个月每个账单的快照等。业务过程事件建立或获取性能度量,并转换成事实表中的事实。过程定义了特定的设计目标以及对粒度、维度、事实的定义。1.1.2 声明粒度粒度用于确定某一个事实表中
2022-03-04 16:31:09 572
原创 什么是可加,半可加,不可加事实?
众所周知,数据仓库的事实表中是有数字度量的,一般会根据这些数据度量以及提前规定好的一致性维度来进行统计等工作。那么事实表中的数字度量分三种:1.可加事实,2.半可加事实,3.不可加事实下面让我们来看看它们的定义与区别1.可加事实可加事实指的是该度量可以按照和事实表关联的任一维度进行汇总。比如商品的单价,可以按照品类维度进行汇总,按照店铺维度进行汇总等等。(20201105修正,这里的例子应该是每天新增人口数,这个事实可以基于各个关联的维度汇总,商品单价的话不能基于时间维度汇总,应该属于半
2022-03-04 16:25:13 1720
原创 hive和mysql字符集
表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(一些命令直接不能执行),详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1。1. 但是,因为MySQL通过my.cnf一般情况下设置为utf-8编码,因此需要在创建Hive元数据库时,需要将MySQL中的hive库改回latin1。alter database hive character s
2021-07-27 17:26:09 895
转载 linux下添加用户并赋予root权限
1、添加用户,首先用adduser命令添加一个普通用户,命令如下:#adduser tommy//添加一个名为tommy的用户#passwd tommy //修改密码Changing password for user tommy.New UNIX password: //在这里输入新密码Retype new UNIX password: //再次输入新密码passwd: all authentication tokens updated successfully....
2021-06-21 21:37:53 17932
原创 hive-set设置总结
直接set命令可以看到所有变量值。set单个参数,可以看见这个参数的值。常用hiveconfHive相关的配置属性总结set hive.cli.print.current.db=true;在cli hive提示符后显示当前数据库。set hive.cli.print.header=true;显示表头。select时会显示对应字段。set hive.mapred.mode=strict;防止笛卡儿积的执行;如果对分区表查询,且没有在where中对分区字段进行限制,报错FAILED: Semant...
2021-05-14 11:34:09 3844
转载 Oracle trunc()函数的用法
--Oracle trunc()函数的用法/**************日期********************/1.select trunc(sysdate) from dual --2013-01-06 今天的日期为2013-01-062.select trunc(sysdate, 'mm') from dual --2013-01-01 返回当月第一天.3.select
2017-01-16 14:38:00 182
原创 git、github for window、tortoisegit的区别
想知道软件git、github for window、tortoisegit有什么区别?github for window、tortoisegit是git协议的一种实现,那git软件也是git协议一种实现。这样理解对吗?添加评论分享按投票排序按时间排序2 个回答小猪,我就是觉得命令
2016-01-19 21:25:38 1069
原创 svn使用学习
http://www.cnblogs.com/armyfai/p/3985660.html闪存首页新随笔管理订阅SVN使用教程总结SVN简介: 为什么要使用SVN? 程序员在编写程序的过程中,每个程序员都会生成很多不同的版本,这就需要程序员有效的管理代码,在需要的时候可以迅速,准确取出相应的版本。
2015-12-29 17:51:00 299
原创 JSON数据格式
JSON 数据格式 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。JSON采用完全独立于语言的文本格式,这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。基础结构JSON建构于两种结构:1. “名称/值”对的集合(A collection of name/value pair
2015-12-25 14:15:01 494
原创 ssh命令
http://wenku.baidu.com/link?url=v2aJSu1AywAtCR5eTmQ1gE1_GtPOc6Miqy62ssWhPx90dsIYLDELol5JdOxr25cA3DMPIuTQo4-x-rBt_rdLq--wMA0jP5eRTGZ7pJS8LVW
2015-12-16 23:36:20 225
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人