常见etl面试题目

1.JOIN和LOOKUP的区别?

这个简单,区别在于

1)使用的缓存方式,JOIN是先内存,后磁盘,LOOKUP全放到内存中进行查找,

2)默认的数据分区是不一样的JOIN是ROUND ROBIN,LOOKUP是ENTRY.

3)使用的场景也不一样,JOIN用于数据量大的时候进行查找,LOOKUP只有在内存宽松的情况下进行查找.

4)数据查找失败的方式也不一样.LOOKUP有REJECT LINK,JOIN 没(主要看是什么JOIN).

2.sequence file 和dataset的区别?

这个问题也很简单,区别在于:

1)sequence file用于平面的字符文件,是串行读取的,dataset是Datastage FRAMEWORK的内部使用格式,是按照APT_CONFIG_FILE中的节点进行分区压缩存放.
2)sequence file可被外部程序读取,dataset是内部格式,只允许Datastage进行相关的读取.

3.fileset的使用:
fileset 是用于文件集的,可以进行相关的并行读取,但最大读取的文件为2G(这个有待考证,因为我也不太记得了)

4.APD_CONFILE_FILE的编写.
根据相关的模板,设置FASTNAME,POOL,SCRATCH,SORT DISK就OK.

5.如果在Datastage中配置ODBC.
1)在Datastage 安装目录下有个uvconfig,在里面按照模板进行选项的配置.
2)在工程目录下的ODBC.INI文件加入相关的连接就OK.

6.分区
回答几个Datastage的数据分区就OK了.一共8个左右.
HASH分区,Random分区,Round分区,Same分区.取模分区
7.调优
基于分区的调优,主要是分区的利用和瓶颈的分析.

8.Datastage的相关启动
要针对Datastage的安装方式,ROOT用户直接用ROOT用户可以进行启动,指定管理员方式的安装需要用指定管理用户进行启动.

9.BASH的相关提问

10.ORACLE的相关提问.

11.LINUX的权限设置.

面试一共持续了47分钟,结束的时候刚好15:00.很郁闷,DATASTAGE问了40多分钟,英语却5分钟不到.这次如果想要进外企,真的要好好纪下口语了.

总的来说,面试我觉得还算是可以的,接下来就看IBM的人怎么看我的情况了.希望我能打上一个IBM的标识..也是我工作中的一个长足的进步吧.希望….希望….希望着……期待着……..
----------------------------------------------
什么叫数据仓库?(相信inmon的数据仓库概念的四个特点是最基本的吧,当然需要加上自己的理解) 
  数据仓库和数据库有什么区别?(事务性数据库和决策支持数据库的区别,当然包括目标、用途、设计等等) 
  什么叫OLAP?用途是什么?(OLAP指多维数据库了,主要用于多维分析了;包括三种实现方式) 
  什么叫维度和度量值?(一个是出发点,一个是观察值) 
  数据仓库的基本架构是什么?(数据源,ETL,data stage,ODS,data warehouse,datamart,OLAP等等,可能为针对每一个结构进行发问啊)
  什么叫缓慢维度变化?(为了表现和记录基础数据变化情况在数据仓库中的记录,包括三大类维度处理方式,缓慢变化维包括三小类) 
  什么叫查找表,为什么使用替代键?(其实目的和上面一样,从基础表到缓慢维度表的过程中的一种实现途径) 
  如何实现增量抽取?(主要采用时间戳方式,提供数据抽取和处理的性能) 
  用过什么ETL工具(informatica,ssis,owb,datastage),以及该工具简单讲述特点。 
  ETL都包括那些组成部分(工作流和数据流,数据流包括若干组件处理ETL的各个环节) 
  用过什么报表工具(bo,hyperion,congo,reporing servce),以及该工具基本特点。 
  数据仓库项目最重要或需要注意的是什么,以及如何处理?(一般答数据质量,主要是数据源数据质量分析,数据清洗转换,当然也可以定量分析) 
  关于数据库部分的面试题(不是要DBA的,但是还是要具备DBA的部分知识结构) 
  用过什么数据库(SQLServer,Oracle),讲述其物理和逻辑结构,以Oracle为主. 
  能够写基本的SQL语句,分组函数和关联,一般会给几个例子。 
  如何进行性能优化,只要能答索引的基本原理以及各种索引的区别即可。 
  事实上,数据仓库和DBA或者其它技术不尽相同,没有绝对的答案,大家只要能表达和描述清楚自己的观点就可以了。

  • 2
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值