hadoop面试题整理(十)

1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据


2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?


3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?


4. 你们的服务器有多少台?服务器的内存多大?


5. 你们的服务器怎么分布的?(这里说地理位置分布,最好也从机架方面也谈谈)


6. 你平常在公司都干些什么(一些建议)


7. 你们的集群规模?

开发集群: 10台(8台可用) 8核cpu


8. 你们的数据是用什么导入到数据库的?导入到什么数据库?

处理之前的导入:通过 hadoop 命令导入到 hdfs 文件系统

处理完成之后的导出:利用 hive 处理完成之后的数据,通过 sqoop 导出到 mysql 数据库中,以供报表层使用。


9. 你们业务数据量多大?有多少行数据? 

开发时使用的是部分数据,不是全量数据,有将近一亿行( 8、 9 千万,具体不详,一般开发中也没人会特别关心这个问题)


10. 你们处理数据是直接读数据库的数据还是读文本数据?

将日志数据导入到 hdfs 之后进行处理


11. 你们写 hive 的 hql 语句,大概有多少条?

不清楚,我自己写的时候也没有做过统计


12. 你们提交的 job 任务大概有多少个?这些 job 执行完大概用多少时间?

没统计过,加上测试的,会有很多


13. 你在项目中主要的工作任务是?

利用 hive 分析数据


14. 你在项目中遇到了哪些难题,是怎么解决的?

某些任务执行时间过长,且失败率过高,检查日志后发现没有执行完就失败,原因出在hadoop 的 job 的 timeout 过短(相对于集群的能力来说),设置长一点即可


15. 你自己写过 udf 函数么?写了哪些?


16. 你的项目提交到 job 的时候数据量有多大? 


17. 数据备份, 你们是多少份, 如果数据超过存储容量, 你们怎么处理?


18. 怎么提升多个 JOB 同时执行带来的压力, 如何优化, 说说思路?


19. 你们用 HBASE 存储什么数据?


20. 你们的 hive 处理数据能达到的指标是多少?


21.  你们的 hbase 大概在公司业务中(主要是网上商城)大概都几个表,几个表簇,都存什么样的数据?


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值