1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?
2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?
3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?
4. 你们的服务器有多少台?服务器的内存多大?
5. 你们的服务器怎么分布的?(这里说地理位置分布,最好也从机架方面也谈谈)
6. 你平常在公司都干些什么(一些建议)
开发集群: 10台(8台可用) 8核cpu
8. 你们的数据是用什么导入到数据库的?导入到什么数据库?
处理之前的导入:通过 hadoop 命令导入到 hdfs 文件系统处理完成之后的导出:利用 hive 处理完成之后的数据,通过 sqoop 导出到 mysql 数据库中,以供报表层使用。
开发时使用的是部分数据,不是全量数据,有将近一亿行( 8、 9 千万,具体不详,一般开发中也没人会特别关心这个问题)
将日志数据导入到 hdfs 之后进行处理
不清楚,我自己写的时候也没有做过统计
没统计过,加上测试的,会有很多
利用 hive 分析数据
某些任务执行时间过长,且失败率过高,检查日志后发现没有执行完就失败,原因出在hadoop 的 job 的 timeout 过短(相对于集群的能力来说),设置长一点即可
17. 数据备份, 你们是多少份, 如果数据超过存储容量, 你们怎么处理?
18. 怎么提升多个 JOB 同时执行带来的压力, 如何优化, 说说思路?
19. 你们用 HBASE 存储什么数据?
20. 你们的 hive 处理数据能达到的指标是多少?
21. 你们的 hbase 大概在公司业务中(主要是网上商城)大概都几个表,几个表簇,都存什么样的数据?