Hadoop
zhangbinu
要技艺超群,要予人温暖。
展开
-
CDH集群启动后使用Hive报错解决办法
CDH集群启动后使用Hive报错:解决方案:查看状态二个namenode节点都为standby状态:$./hdfs haadmin -getServiceState namenode1standby$./hdfs haadmin -getServiceState namenode2standby在CM界面手动切换即可:...原创 2019-11-06 19:23:45 · 1281 阅读 · 1 评论 -
Sqoop从MySQL导入数据到Hive的Shell脚本
因工作需求,要将mysql的数据导入到Hive中通过Spark SQL进行分析,经过一翻周折,完成了这个自动化脚本,算是实现需求的第一步,也算是在Shell编程这条路上算是迈出了第一步。mysql中每天一张表,hive中一个表,按时间分区,如dt=180820.以下是导数据的Shell脚本:#!/bin/bashsource /etc/profilehost=127.0.0.1...原创 2018-08-20 17:18:34 · 2860 阅读 · 2 评论 -
Sqoop分批导入Mysql上亿条数据的表到HDFS
因数据量过大,运行sqoop跑不动或者卡内存,于是通过写脚本分批导入到HDFS,然后再加载到Hive表中。 shell脚本如下:#!/bin/bashsource /etc/profilehost=127.0.0.1for((i=1; i<=100; i++))do start=$(((${i} - 1) * 100000 + 1)) end=$(...原创 2018-08-28 19:37:38 · 5110 阅读 · 3 评论 -
Hive中的默认分隔符及其表示
默认记录和字段分隔符\n 每行一条记录^A 分隔列(八进制 \001)^B 分隔ARRAY或者STRUCT中的元素,或者MAP中多个键值对之间分隔(八进制 \002)^C 分隔MAP中键值对的“键”和“值”(八进制 \003)...原创 2018-08-28 19:42:49 · 10702 阅读 · 0 评论 -
Sqoop从HDFS导出Hive表到Mysql的shell脚本
因统计需求,要指将Spark SQL计算好的结果,从Hive导出到Mysql数据库,于是写了个批量导的脚本。 运行参数: 开始时间 结束时间 注意点: 1. 在shell中,sqoop语句的每一行末尾不能有多余的空格,否则执行时报错! 2. shell中的if条件判断,只能是数字和才能比较大小,需要将时间转成时间戳! 代码如下:#!/bin/bashsource /etc/pr...原创 2018-08-24 16:55:34 · 1333 阅读 · 1 评论 -
HBase查询-Scan类实用设置
Scan类常用方法说明1. 指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columnsscan.addFamily();scan.addColumn();2. 指定最大的版本个数。如果不带任何参数调用setMaxVersions,表示取所有的版本。如果不掉用setMaxVersions,只会取到最新的版本scan.setMax...原创 2019-04-29 19:33:11 · 1422 阅读 · 0 评论