- 博客(3)
- 资源 (13)
- 收藏
- 关注
原创 Hive 优化
Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。 列裁剪(Column Pruning) 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询: SELECT a,b FROM T WHERE e < 10; 其中,T 包含 5 个列 (a,b,c,d,e),列 c,d 将会被忽略,只会读取a, b, e 列 这个
2013-08-29 17:17:10 673
原创 使用sqoop工具进行数据导入导出 sqoop并行导入
使用sqoop工具进行数据导入导出中可以进行并行导入的方法 例如 从mysql数据库中导入到hive中可以执行 sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1 其中-m 1 参数代表的含义是使用多
2013-08-29 17:16:22 4088
原创 用hbase(0.92版本以上)的协处理器实现快速返回查询结果总数 .
在0.92版本的hbase上添加了协处理器的功能,协处理器分为两大部分 endpoint和observer. observer相当于一个钩子的作用,根据钩子运行的模块来划分,又分成三个 RegionObserver:用这个做数据操纵事件,其紧密的绑定到表的region MasterObserver:处理集群级别的事件:管理操作和数据定义语言操作 WALObserver:预写日志处理 而e
2013-08-21 11:34:34 1627
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人