自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据求学路

想到什么写什么,希望能对你们有所帮助!

  • 博客(9)
  • 收藏
  • 关注

原创 SQL语言中,一个有灵魂的数字 :1

SQL语言中,一个有灵魂的数字 :1

2022-07-30 23:59:29 824 2

原创 case when常见用法分析

case when 常见用法分析。

2022-07-30 22:56:51 4406

原创 大数据面试常见问题(七)——面试部分

如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。1.2 数据漂移出现的原因通常落地数仓的ODS表会按时间切分做分区存储,实际上往往由于时间戳字段的准确性问题导致发生数据漂移。通常有四类时间戳:modified_time:数据库记录某条数据更新的时间。lo

2022-07-01 00:00:00 6958 4

原创 大数据面试常见问题(六)——建模部分

会使用图形化的界面来表示表格和表格之间的关系,以及表格本身的内容。这个表示数据之间的表达关系的图,就叫做ER图。怎么去设计某个功能需要的表格,以及中间的小表,每个表格有哪些不同的关系等等,这个就是数据建模的过程(1)确定表名。表名要确保其唯一性,表的名称要与用途相符,简略、直观、见名知意。(2)确定字段名称。字段名长度小于64个字符;字段名可以包括字母、汉字、数字、空格和其他字符;字段名不可以包括句号(。)、感叹号(!)、方括号([])和重音符号(、);字段名不可以以先导空格开头。(3)确定字段类型。设计数

2022-06-27 23:17:40 2723

原创 大数据面试常见问题(五)——报表部分

目录1、Finereport的报表设计流程2、做报表开发,如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗?都少钱?4、做出的报表是以什么文件或者形式发给客户,客户又是通过什么方式查看报表的呢?5帆软和tableau的区别(传统bi工具和商务智能bi工具的区别)6、olap和oltp的区别 我们都是根据需求来验证的,如果计算的话,都有计算公式,我会自己先算一遍,然后通过调用函数对比计算结果。如果是存储过程的话,我会根据需求中的取值逻辑和判断,验证一下取值是否正确这方面我不太清除,都是公司统一采购的

2022-06-27 23:15:36 5804

原创 大数据面试常见问题(四)——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题,你们是怎么解决的?4、如果抽取的数据有重复,怎么解决5、etl脚本开发以后,怎么运维6、一张特别大的表,几千万,几亿 的表,怎么通过etl工具同步7、数据同步以后,源系统的表结构发生了改变,比如源系统的表增加了字段,你的kettle脚本是否会报错?8、有一张表下午5点才出数据,依赖的表早上十点就已经跑完了,是什么原因导致表这么慢出数据(从数仓同步数据,本来早上9点就要出结果,结果一直到下午4点才出结果)9、有一个job前一天执行成功了,

2022-06-27 23:11:05 12613

原创 大数据面试常见问题(三)——Hadoop部分

1、hive数据库和其他的数据库有什么区别?hive数据库是使用hdfs存储数据的,oracle数据库使用.dbf文件存储数据hive数据库使用mr引擎计算数据,oracle有自己自带的executor进行计算hive的语句运行延迟比较高,oracle延迟很低hive支持的容量比较大,可以支持TB PB,但是oracle只能支持GBhive数据库没有约束条件的部分,oracle有约束hive没有索引,oracle有索引2、传统数仓和大数据数仓的区别传统数仓主要是结构化的.

2022-06-13 14:21:47 3276

原创 大数据面试常见问题(二)——Linux部分

1、shell怎么传参接收参数:采用$0,$1,$2..等方式获取脚本命令行传入的参数,值得注意的是,$0获取到的是脚本(1)路径以及脚本名#!/bin/bashecho "脚本$0"echo "第一个参数$1"echo "第二个参数$2"(2)执行shell脚本传入参数:./test.sh 1 2 或者 sh test.sh 1 22、批量杀死名字带abc的进程kill -9 `ps -aux | grep abc | awk '{print $2}]'`...

2022-06-13 11:14:48 1350

原创 大数据面试常见问题(一)——Oracle部分

1、Oracle分区类型范围分区,列表分区,散列分区,组合分区2、每种类型一般是用在什么场景下?范围分区:用指定的分区键决定的范围进行分区,最为常用,分区键常采用日期。列表分区:某列的值只有几个,可以采用列表分区。散列分区:通过指定分区数量或编号来均匀分布数据的一种分区类型,分区数量常采用2的N次方;当列的值没有合适的条件时,采用散列分区;组合分区:范围分区和列表分区组合;范围分区和散列分区组合,分区中的分区被称为子分区;3、哪种分区类型使用的最多?为什么?看具体..

2022-05-19 20:37:37 6469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除