大数据
文章平均质量分 56
福贵儿
Stay Hungry, Stay Foolish
展开
-
【已解决】CDH中Spark无法启动问题
Spark 无法启动原创 2022-08-18 23:47:27 · 742 阅读 · 0 评论 -
ERROR 1396 (HY000): Operation ALTER USER failed for ‘root‘@‘localhost‘
mysql转载 2022-07-26 00:28:08 · 923 阅读 · 0 评论 -
MapReduce经典程序--WordCount
最近在把以前经典的程序拿出来看看,梳理一下背后的原理,在这里记录一下MR的经典程序 WC。import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.h原创 2022-02-22 22:51:09 · 2157 阅读 · 0 评论 -
Spark内存模型的理解
Spark 内存原创 2022-01-16 11:02:30 · 2906 阅读 · 0 评论 -
VMware 虚拟机三种网络模式详解
1.概述最近在搭建一些大数据用到的环境,这里记录一下,形成一个草稿,后面再加以补充。2.VM中的三个虚拟设备VMnet0:用于虚拟桥接网络下的虚拟交换机(桥接)VMnet1:用于虚拟 Host-only 网络下的虚拟交换机VMnet8:用于虚拟 NAT 网络下的虚拟交换机同时,安装了 VMware 虚拟机后,会在本地主机网络连接对话框中多出两个虚拟网卡,如下:VMware Network AdepterVMnet1:Host 用于与 Host-on...原创 2021-11-15 17:36:36 · 5425 阅读 · 0 评论 -
HDFS元数据管理
1.2.源码流程图大致可以分为以下步骤: 双缓冲机制+分段加锁 —> 磁盘写 变 内存写 new path传入目录路径(FileTest.java —> DistributedFileSystem.java —> DFSClient.java) 走的Hadoop的RPC,调用服务端的代码 NameNodeRpcServer.java —> FSNamesystem.java 调用FSNameSystem创建目录原创 2021-10-16 20:41:39 · 1641 阅读 · 0 评论 -
【已解决】Hive报错(com.google.common.base.Preconditions.checkArgument)
1.问题描述在进行Hive数据库初始化的时候,报如下的错:[root@cm bin]# schematool -dbType mysql -initSchemaSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/data/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.clas.原创 2021-03-27 19:42:29 · 3515 阅读 · 0 评论 -
Sqoop同步问题
问题排查与解决1. 之前老数据平台,有个问题,sqoop同步的时候,一直报下面的错2. 查一下shell脚本3. 经过一段时间排查,是因为脚本把空格读进去,导致sql查不出表名,jobs就为空了注意: 慢慢排查,缩小排查范围,问题会找出来的。...原创 2020-12-15 21:10:14 · 1632 阅读 · 0 评论 -
关于Presto查询语句问题【已解决】
1. 问题描述 最近看到报表后台有个报错,无法定时运行,一直报fail,当时非常着急,这该如何是好,头发都要掉完了,哈哈,开个玩笑。。。。。2.解决方案 于是就顺藤摸瓜,一点点排错,后来定位到shell文件里面的sql语句,然后将这个语句拿到Presto环境中运行,报如下的错误根据提示,这个我当时怀疑是 format 日期转化出了问题,于是我就写了一个简单的sql,测试了一下select parse_datetiem('test','yyyymmd...原创 2020-09-01 21:10:22 · 702 阅读 · 0 评论 -
Kettle将XML文件中数据入库【已解决】
1. 概述与操作 最近因为业务的需要,要把一些xml文件中的数据入库,这个时候就要用到ETL工具来操作,我使用的工具就是kettle,下面是大致步骤:1. 确认xml文件数据结构(方便构思解析步骤,以及创建表)2. 使用kettle进行ETL(共四步) 读取文件 过滤记录(成功,则next) 列转行 插入表3. 验证数据准确性温馨提示:之前是用Get data from XM...原创 2020-06-16 23:22:17 · 2150 阅读 · 1 评论 -
关于Sqoop同步数据的问题【已解决】
1.问题描述 最近某个表没有增量的数据,出现了问题, 于是调出日志,定位问题,结果是临时表中增量条件多了个and(大意多填了), 后来在拼接sql的时候,多一个and,导致增量sql没有执行成功,报了如下异常:java.sql.SQLSyntaxErrorException: ORA-00936: missing expression最致命的是 这里没有邮件通知到,之前考虑到这部分是手动配置,插入临时表的,配完之后,跑一下没问题就行。就没有考虑容错。...原创 2020-06-03 20:49:22 · 1086 阅读 · 0 评论 -
关于数据脱敏问题(Hive之UDF)
1.问题描述 数据的重要性是不言而喻的,所以对敏感的数据,进行脱敏也是很有必要的。不过目前我遇到一个问题,就是数据进行加密之后,怎么在BI显示明文呢,因为有些部门需要用到这些相对敏感数据进行营销,所以这个时候要有一个解决方案去应对。仔细想想,也就是加密之后,在通过相应的规则,在还原回去,难易程度这个时候就要看加密的算法是否复杂了。2. 解决方案 这里我简单说...原创 2020-05-08 16:57:55 · 1794 阅读 · 0 评论 -
ORA-01480: STR 绑定值的结尾 Null 字符缺失
1. 问题描述 2. 解决方案 直接用sql语句update t_etl_sqoop_config set sql_query = 'TXN_LOCK,TXN_LOCK_TIME,TRANS_TIME,POSP_STMT,TRANS_SEQ,MSG_TYPE,MSG_TYPE_RESP,PAN,PROC_CODE,TRANS_AMT,TRANS_AMT_REP...原创 2020-04-11 17:36:45 · 15099 阅读 · 0 评论 -
Kettle_内存溢出【已解决】
1.问题描述 最近,收到异常邮件,提醒某个Job在执行的时候出现异常,就到Azkaban查一下日志,如下:20-02-2020 05:22:52 CST job_all_table_nutnpo INFO - 2020/02/20 05:22:52 - NUT_INFO_AUTH.0 - Finished processing (I=50000, O=0, R=0, W=5000...原创 2020-02-26 11:11:14 · 6621 阅读 · 0 评论 -
Qlik之自动生成的脚本段(一)
1.问题描述 最近在用Qlik展示的时候,自动生成的脚本段 一直不能生成出来,阻止了开发。。。2.解决方案 就我开发的这个应用,应该是因为不能识别qlik里面sql的日期字段,无法自动生成自动化脚本段。这个时候将时间规范一点,显示,就能识别,生成了。regexp_replace(substr(n.CREATE_TIME,1,10),'-','') as...原创 2020-01-16 11:13:35 · 625 阅读 · 0 评论 -
命令行/可视化软件连接FTP
1.命令行详细步骤a. 输入ftp,查看看是否已安装,若无,使用如下命令安装 yum -y install ftpb.测试IP和端口telnet 192.168.23.56 33221c. 测试成功之后,连接ftpftp 192.168.23.56 33221d. 连接成功之后,输入帐户名/密码,即可。e. 输入dir命令,测试,成功。...原创 2020-01-10 14:34:43 · 1062 阅读 · 0 评论 -
Kettle进行自动数据拉取及邮件发送
1.需求描述 因为会在固定的时间会有相同的需求,就没必要每次手动完成,亟须解决,需要自动化。2.操作步骤1.创建Transformation,然后选取表输入2. 双击表输入,填写相关信息3.选取Excel输出4. 填写相关信息5.创建Job,选取start,转换,添加文件到结果文件中,email 6...原创 2019-12-31 16:36:18 · 2076 阅读 · 1 评论 -
Qlik之应用如何覆盖之前已发布应用(二)
1.问题描述 对于已经发布的Qlik应用,如果想更改数据源/更改条件……,那么如何将待发布的应用替换之前的应用呢?2.操作步骤a. 到Qlik的Console,点击Apps,搜索要发布的项目名 b. 选中空白的那个,点击底部的Publishc.勾选红框选项,第一个选择要发布的部门,第二个要选择该部门要替换的产品,点击ok即可...原创 2019-12-26 19:21:52 · 490 阅读 · 2 评论 -
关于Kettle中JOB的问题【已解决】
问题描述 最近遇到一个小问题,就是有时候我把Transformation做一些修改的时候,Job那面选中Transformation的路径就会改变,这个确实很烦,之前以为重新选一下,就行了,后来还是会变,脑阔痛,哎呦呦……解决方案 这个问题也很好解决 例如,这个时候只需要将这个路径写死就行了,例如,很简单吧,完美解决!...原创 2019-12-20 17:35:14 · 3276 阅读 · 0 评论 -
Impala和Presto的时间处理
Impala: 时间 String--->Date : from_unixtime(unix_timestamp(trunc(to_date(DELIVER_DATE),'MONTH')),'yyyyMMdd') as DELIVER_DATEPresto(且向前推一天):时间String--->Date :date_format(date_par...原创 2019-12-11 16:51:53 · 2368 阅读 · 0 评论 -
Qlik之数据如何做增量(三)
1.需求 对于数据量很大的需求来说,例如几千万,上亿条数据,qlik要加载很长时间,是相当的费时间,所以这个记录一下,如何在qlik中做数据的增量2.操作步骤1.先跑一遍全量数据,存储在qlik服务器里(例如取20190101到20191210的数据,那我就先跑20190101到20191201的全量数据) 1. select * from test whe...原创 2019-12-10 17:41:28 · 2524 阅读 · 2 评论 -
关于HIVE中空格符等符号的问题【已解决】
1.问题描述 最近在用sqoop做数据迁移的时候,发现Hive中的数据突然多了几条,为什么多了几条呢?百思不得其解,后来,经过查询,用sqoop将数据导入到Hive的时候,有时候默认会有个空格,导致一条数据变成了几行,ok,我回去再查询数据的时候,果然,确实出现了换行的问题,我就不截图了,问题找到了,那就找解决方案吧!2.解决方案 我使用的是下面这一句:...原创 2019-12-05 20:13:13 · 4713 阅读 · 0 评论 -
Azkaban报NullPointerException【已解决】
1.问题描述 最近在用Azkaban调用Shell的时候,失败了。。。查看日志,报了NullPointerException,当时也不知道是怎么回事,具体的报错信息如下:*******************************************************************************Nov 25, 2019 4:48:44 PM ...原创 2019-11-28 18:40:43 · 2956 阅读 · 2 评论 -
Qlik之对于已发布应用,如何加载数据(四)
1.问题描述 QLik对于已经发布的应用,如果因为后台的数据结构做调整,而导致当天定时的任务,跑失败,该如何补数呢?(我这里说的是已发布的应用,不是开发时候的应用,如果是后者,直接点击右上角的加载数据即可)2.操作步骤a.登录qlik的控制台https://test.com/qlik/qmc/2.点击左面的tasks3.选中需要重新加载数据的应用,点击底部...原创 2019-11-28 16:39:43 · 2078 阅读 · 0 评论 -
Azkaban的通知邮件
Azkaban的通知邮件配置1. Azkaban的发送邮件是在azkaban.properties中配置的,如下 2. Azkaban的接收邮件可以在Job中配置,也可以在后台的azkaban.properties中配置,Job如下: 代码如下,方便复制:type=commandcommand=sh /home/tomcat/script/t...原创 2019-11-25 14:41:05 · 2490 阅读 · 0 评论 -
Qlik之创建任务调度(五)
1.需求 qlik作为大数据展示应用之一,首先要有数据给它,而且每天要保持数据是最新的,这个时候qlik的任务调度就派上用场了。那如何使用qlik的任务调度呢?2.解决方案1.进入qlik的后台https://test.com/qlik/qmc/2.点击左面的tasks3.点击底部的CreateNew,然后选择已发布的应用...原创 2019-11-22 15:56:39 · 1948 阅读 · 0 评论 -
Qlik之的应用备份(.qvf) (六)
1.需求 大家也知道,干我们这行的,数据是很重要的,需要备份,保险一点,出了意外,能及时弥补。Qlik也不例外,应用也需要及时备份,万一误删除,此处略去一个TB。。。。。 那如何备份应用呢?2.解决方案a.访问Qlik的后台http://tets.com/qlik/qmcb.选择菜单栏的Appsc.然后,选中要导出的应用,点击底部的Export...原创 2019-11-21 14:49:30 · 2118 阅读 · 2 评论 -
Qlik之查看账号登录的时间(七)
1.需求 查看Qlik各个账号登录的时间2.操作步骤a.登录qlik的控制台https://test.com/qlik/qmc/b.点击左上角Star下拉菜单的中License management选项 c.点击右侧的Analyzer access allocations,即可 ...原创 2019-11-19 14:23:51 · 1835 阅读 · 0 评论 -
Kettle的表或视图不存在问题【已解决】
1.问题描述 在用Kettle做job的时候,报如下的错2019/11/18 14:28:42 - OUT FICP_PARAM_DATA 2.0 - ERROR (version 8.3.0.0-371, build 8.3.0.0-371 from 2019-06-11 11.09.08 by buildguy) : org.pentaho.di.core.exceptio...原创 2019-11-18 14:36:13 · 7284 阅读 · 0 评论 -
Qlik Sense 的一些问题【已解决】
1.问题描述 在将数据放在Qlik上展示的过程中,遇到一个问题,就是将时间经过插件转为标准时间,在进行数据加载完成的时候,修改自动化生成脚本的时候,在加载数据。会报错误,如下: 2.解决方案 通过上面截图中报错语句提示,意思是sql没有完全的结束,咦,哪里有问题,我是看了很久,结合自...原创 2019-11-14 19:43:53 · 3936 阅读 · 3 评论 -
关于CM日志问题【已解决】
1.问题描述 最近,遇到的问题,就是CM的这台服务器,频繁的报警,内存不足, 经过一番奋战,使用df -h 和 du -sh * 两条命令,找到了问题的出处并得到了解决,额,应该是缓解吧。2.解决方案a. 到CM的服务器上,使用下面的命令,将日志删除,如下# /bin/rm /var/lib/cloudera-host-monitor/ts/*/partitio...原创 2019-11-11 21:06:40 · 2361 阅读 · 0 评论 -
关于Kettle同步数据,找不到创建的表【已解决】
1.问题描述 今天遇到一个问题,就是将数仓的数据同步到某个Oracle业务库,然后在业务库中创建表,用Kettle同步的时候,报错,如下 表我创建了,为啥报表或视图不存在呢?2.问题解决 经过一番排查,找到了原因,是因为,数据库里面有两个实例,我在一个实例里面创建表,又在Kettle中同步中选择另外一个实...原创 2019-11-07 18:53:38 · 4222 阅读 · 0 评论 -
Azkaban介绍和安装,及简单使用
1.什么是Azkaban Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你...原创 2019-11-06 14:28:42 · 1971 阅读 · 0 评论 -
虚拟机网络配置(NAT模式)
续:在虚拟机(VMware)安装CentOS搭建集群,经常要克隆,对于克隆的虚拟机,网卡容易失效,下面步骤能帮助你,恢复。1.修改网卡设置 输入下面的命令:[root@hap-01 /]# vi /etc/udev/rules.d/70-persistent-net.rules 删除多余配置,并将eth1改为eth0,如下图2. IP地址配置...原创 2019-11-05 23:31:14 · 2013 阅读 · 0 评论 -
Linux 给文件内容添加 文件头
例: COOOOOOOOOOOO1 _Ml_N_20191010_00000010.TXT统计文本中的记录数,然后插入到文本的第一行,命令如下:sed -i "1i 01|XXXXXXXXXXXXXX|`cat XXXXXXX.txt |wc -l`|00000001" XXXXXXX.txt这里,插入的数据,由四部分组成,版本号+机构编码+总笔数+批次编号,中间的总笔数,是由cat...原创 2019-11-05 15:26:54 · 5154 阅读 · 0 评论 -
关于Azkaban重新编译
1. 问题描述 因为Azkaban源码中默认的代码,端口被公司封掉,使用了另外的端口,由于要在内网服务器上部署任务,跑失败了,要发送邮件(报警),所以需要重新编译Azkaban源码。创建失败创建成功,自己自适应端口2.编译过程 第一步: 在 azkaban-common/src/main/java/azkaban/utils/...原创 2019-10-30 20:22:47 · 1795 阅读 · 0 评论 -
CDH搭建中关于parcel的问题【已解决】
1.问题描述 如果在搭建CDH的过程中,出现“对于此 Cloudera Manager 版本 (5.15.0) 太新的 CDH 版本不会显示”,那么应该就是parcel出现了问题,之前后缀名是改过的了,不知道为什么又变回来了,如2.解决方案简单方法: 将sha1 改成 sha,然后重启server,agent终极方法:将parcel-repo文件下面的文...原创 2019-10-26 17:40:11 · 6423 阅读 · 0 评论 -
关于Oozie的Console页面无法呈现问题【已解决】
1.问题描述当想打开Oozie控制台,看一下任务调度情况的时候,会出现下面的界面:2.解决方案从提示可以看出,缺少the Ext JS library1.将ExtJs2.2的压缩包上传集群(最好放在Oozie目录下)2. 解压 放在 /opt/cloudera/parcels/CDH/lib/oozie/libext3. 更改文件权限4. 到Oozie配...原创 2019-10-22 10:47:14 · 1785 阅读 · 0 评论 -
Hive跑MapReduce报错【已解决】
1.报错日志2019-10-14 13:05:18,815 INFO [main]: ql.Driver (SessionState.java:printInfo(1087)) - Query ID = tomcat_20191014130505_85923f08-f137-47a4-9516-c26144f3bfda2019-10-14 13:05:18,815 INFO ...原创 2019-10-15 16:57:22 · 2763 阅读 · 0 评论 -
启动Hadoop集群相关坑
今天主要记两个注意点: 今天启动Hadoop集群的时候,ResourceManager老是闪退,搞了很长时间,最后找到了原因,是因为root/zkmanage.sh,启动有问题,后面应该加上start 如果出现“Operation category READ is not supported in state standby”,说明两个namenode都处于standby,终极方法...原创 2019-07-28 21:20:39 · 1637 阅读 · 0 评论