hadoop数据管理
AA赵师傅
人家只是个小职员啦,工作多,没提成。别人休假我加班。房贷没还清,保险自己买,不过好在我不用交停车费,因为我根本买不起车。
展开
-
hadoop集群间数据拷贝
hadoop distcp -i -m 1000 hdfs://10.161.25.210:8020/user/hive/warehouse/source.db/user_base_info_test_${month_id}/* hdfs://10.162.4.36:8020/user/hive/warehouse/zcb.db/user_base_info_test_${month_id}原创 2021-01-29 21:37:35 · 191 阅读 · 0 评论 -
不同hive集群中基于表的数据一致性比对
前阵子博主遇到一个需求,因对hadoop集群进行数据迁移,数据迁移完毕后进行两个hive库的数据一致性的比对,不仅对源表数据进行比对,而且要同时使用两个集群加工相同数据,对加工后的数据进行数据一致性比对。 博主已知的数据迁移方法有两种,第一种就是hadoop distcp功能来进行集群间数据的复制,那么基本就不用做源表的数据验证了,集群间数据复制失败会报错提示。 第二种方法就是...原创 2018-05-09 11:46:43 · 5315 阅读 · 1 评论 -
浅谈hive中数据的几种压缩方式
hive库中有个表,表名叫做user_info_base表创表的命令是:create table user_info_base( id string, name string, age string)row format delimited fields terminated by '\t' LINES TERMINATED BY '\n' stored as textfile...原创 2018-05-11 14:01:54 · 2956 阅读 · 0 评论 -
hadoop数据压缩
1 概述压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下, I/O 操作和网络数据传输要花大量的时间。还有, Shuffle与 Merge 过程同样也面临着巨大的 I/O 压力。鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省...转载 2018-05-30 17:17:18 · 281 阅读 · 0 评论 -
IMPALA中STRING类型转INT类型
select * from good_user_04 where cast(fee2 as bigint) < cast(attr_value as bigint) /100原创 2019-03-29 15:06:13 · 10742 阅读 · 0 评论 -
IMPALA取时间月份差
select * from good_user_04 a where user_state in ('申请停机','申请停,欠费双停') and months_between(to_timestamp(a.last_stop_time,'yyyyMMddHHmmss'),to_timestamp(a.open_date,'yyyyMMddHHmmss')) <=12;...原创 2019-04-08 10:52:00 · 5368 阅读 · 0 评论