自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 集群文件分发脚本

#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`echo pdir=$pdir#4 获取当前用户名称user=`whoami`#5 循环for i in hadoo

2020-11-09 16:06:26 151

原创 大数据技术选型之阿里云框架与开源框架对比

阿里云框架 开源框架数据采集传输: Flume、DataHub、RDS Flume、Kafka、Sqoop、DataX数据存储 : MaxCompute、DataWorks Mysql、Hadoop、HBase数据计算 : MaxCompute、DataWorks ...

2020-11-05 15:29:22 1197

原创 hive分区表中新增字段,插入数据显示为null的bug,更改字段位置

alter table table_name replace columns(id string,amt string,name string,name2 string) cascade;在添加分区之后 加上cascade,强制添加字段,重新跑一次,数据就会有了。

2020-10-27 15:11:40 233

原创 impala查询报错问题 EOFException: Cannot seek after EOF 求解

Disk I/O error: Error seeking to 536870912 in file: hdfs://ns1/user/hive/warehouse/baofoo_fi.db/fi_gw_agrt_express_order/pk_year=2020/pk_month=2020-03/pk_day=2020-03-25/000000_0 Error(255): Unknown error 255 Root cause: EOFException: Cannot seek after EOF

2020-10-16 15:32:18 4061 2

原创 安装mysql后,navicat连接不上

在虚拟机中安装完mysql后,用navicat一直连接不上,修改/etc/my.cof文件也不管用。后再虚拟机中登录mysql> use mysql; mysql>select user,host from user; mysql>update user set host='0.0.0.0' where user='root' and host='127.0.0.0...

2020-07-22 17:08:04 260

原创 oracle表增量同步到hive分区表

#!/bin/bash## import table from mysql into hivenargs=$#echo "argument num: $nargs "today=`date +%Y-%m-%d`one_day=`date +%Y-%m-%d -d'-1 day'`coll_db=''coll_tab=''coll_host_ip=''coll_host_port=1521coll_tab_username=''coll_tab_passwd=''hive_d

2020-07-22 10:35:55 768

原创 python分页读取全量Elasticsearch数据导出CSV文件支持hive分区表查询

import csvfrom elasticsearch import Elasticsearches = Elasticsearch(hosts="http://localhost:9200/", http_auth=('big_data_query','big_data_query'))query_json = {"query":{"match_all":{}}}query = es.search(index='test',body=query_json,scroll='5m',size=10

2020-06-24 16:43:27 419

原创 java打jar包引入本地依赖,执行java -jar 读取elasticsearch全量数据并导出json文件

起因:要做一个ES数据同步到hdfs的需求,本地测试完成应用到生产后发现与测试环境有很大区别 1. 测试环境无账密 生产环境有账密 排除presto,暂没发现支持账密方式,如有大神知道请指教 2. 测试环境数据量小 生产环境数据量巨大 排除创建映射表方式,可能查挂ES集群 3. 测试环境为一个索引 生产环境由于数据量过大,每天创...

2020-06-22 09:49:35 726

原创 java读取elasticsearch全量数据并导出json文件

一:创建ES连接import org.elasticsearch.client.transport.TransportClient;import org.elasticsearch.common.settings.Settings;import org.elasticsearch.common.transport.TransportAddress;import org.elasticsearch.transport.client.PreBuiltTransportClient;import ja.

2020-06-06 11:07:04 3696

原创 MONGO数据同步到HIVE分区表实现增量同步

一:创建中间表,此中间表路径为步骤二中mongo数据json文件上传路径,表字段只建一个,数据会在步骤二中上传进来一个json文件,数据为json类型的字符串。一条数据中可有多个字段如(_id,reqid,auditTime,values),但在此处只创建一个字段即可。下文中解释。。。CREATE TABLE `tmp_mongo_test.tmp_table_test`( `json_data` string) ROW FORMAT DELIMITEDFIELDS TERMI...

2020-05-25 20:47:55 588

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除