Hadoop生态系统个人总结
学习Hadoop生态系统问题、知识记录
jast_zsh
这个作者很懒,什么都没留下…
展开
-
Hadoop Yarn REST API未授权漏洞利用挖矿分析
目录一、背景情况二、 漏洞说明攻击步骤:三、入侵分析四、安全建议清理病毒安全加固五、IOCs一、背景情况5月5日腾讯云安全曾针对攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况下远程执行代码的安全问题进行预警,在预警的前后我们曾多次捕获相关的攻击案例,其中就包含利用该问题进行挖矿,我们针对...转载 2020-04-04 08:23:45 · 1213 阅读 · 0 评论 -
Impala查询 - HDFS缓存数据
HDFS缓存数据命令查看缓存池信息hdfs cacheadmin -listPools -stats查看已缓存的数据信息hdfs cacheadmin -listDirectives -statsImpala表卸载缓存数据alter table dw_crawler.bsl_zhongda_weibo_article_hive set uncached;创建缓存池h...原创 2019-03-23 10:55:07 · 9977 阅读 · 0 评论 -
Java 调用 Impala - JDBC 调用Impala
java通过JDBC 调用Impala服务Maven项目中 pom.xml引用 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.1&...原创 2019-03-23 10:55:55 · 6166 阅读 · 11 评论 -
Cloudera-Manager 与 原生集群 免密登录问题
原生集群启动方式:在Hadoop启动以后,namenode是通过SSH来启动和停止各个节点上的各种守护进程的,这就需要在节点之间执行指令的时候是不需要输入密码的方式,故我们需要配置SSH使用无密码公钥认证的方式。 Cloudera-Manager启动方式:大多数安装过hadoop的人应该都配置过ssh免密登录,为啥需要免密登录,主要是因为 start-all.sh 这样的启动脚本...原创 2018-11-21 15:18:55 · 9760 阅读 · 0 评论 -
CDH邮件预警
转载自:http://blog.51cto.com/feature09/2055835在CDH的7180页面找到Cloudera Managerment Service如图所示: 在Configuration中,搜索alert设置接收信息的邮箱。设置内容都在图片上: 添加邮件页眉说明,第一行显示 ...转载 2018-11-12 16:44:10 · 457 阅读 · 0 评论 -
HDFS查看异常:Operation category READ is not supported in state standby. Visit
跨集群访问hdfs失败$ hdfs dfs -ls hdfs://test:8020/hbasels: Operation category READ is not supported in state standby. Visit https://s.apache.org/sbnn-error意思是namenode不可用,查看namenode状态hdfs-site.xml ...原创 2018-09-25 16:02:22 · 49580 阅读 · 0 评论 -
HDFS balancer 异常处理
Hbase批量导入数据时,服务器负载较高,导致HDFS数据没有及时均衡,导致有一个DataNode数据暴增,手动进行balancer。增加HDFS DataNode节点,想要均衡数据存储,执行 hdfs balancer -threshold 10 突然有一些节点报错18/09/21 17:51:37 WARN balancer.Dispatcher: Failed to...原创 2018-09-21 18:02:18 · 21235 阅读 · 0 评论 -
Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比
创建两张表,通过一种是parquet , 一种使用parquet snappy压缩创建表使用snappyCREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)partitioned by(pt_xvc string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\001'S...原创 2019-03-11 10:07:55 · 10243 阅读 · 3 评论 -
Hive 外部表关联分区数据
0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响。1. 在HDFS创建分区,并存有文件手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:/test/in/day=20/20.txt/test/...转载 2019-01-29 11:01:36 · 2117 阅读 · 0 评论 -
Hive 行转列,列传行 - Impala 暂不支持
注:Impala 不支持 lateral view explode 一、行转列 (对某列拆分,一列拆多行)使用函数:lateral view explode(split(column, ',')) numeg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分SQL代码:select id,tag,tag_new from t_row_to_...转载 2019-01-29 09:40:57 · 6145 阅读 · 1 评论 -
Hive 禁止提交 大范围磁盘扫描任务(禁止提交where条件包含未分区过滤)
参考书籍:Hive编程指南 如果用户需要做一个查询,查询条件是全盘扫描。Hive会不得不读取每个文件目录,但这种宽范围的磁盘扫描还是比较少见的。 但是,如果表中的数据以及分区个数都非常大的话,执行这样一个包含有所有分区的查询可能会触发一个巨大的MapReduce任务。一个高度建议的安全措施就是将Hive设置为“strict(严格)”模式,这样如果对分区表进行查询而WHERE子句没有加...原创 2019-01-21 15:19:45 · 891 阅读 · 0 评论 -
Hive 分区表操作 创建、删除
删除某个分区指定数据ALTER TABLE tableName DROP PARTITION (times = 201851);ALTER TABLE user_portrait_task DROP PARTITION (times > 201801);原创 2018-12-29 14:46:49 · 884 阅读 · 0 评论 -
Hive日期函数
1.unix时间戳转时间函数语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,‘yyyyMMdd’) ...转载 2018-11-28 10:40:00 · 39555 阅读 · 0 评论 -
Hive 大小表关联查询异常
异常原因:mr将数据量小的表识别成了大表,数据量大的识别成小表,导致将数据量大的表加入到内存,导致程序异常 处理方法:set hive.execution.engine=mr;set hive.mapjoin.smalltable.filesize=55000000;set hive.auto.convert.join = false; #取消小表加载至内存中异常信息WARN...原创 2018-11-21 15:39:41 · 13564 阅读 · 6 评论 -
Hive Shell
目录hive是否执行mr创建数据库指定目录删除数据库显示表信息/表结构查看表示内部表还是外部表拷贝一张已经存在的表的表模式(而无需拷贝数据)复制一张表(包括数据)hive-cli 显示当前所在数据库执行命令不进入hive交互模式hive关联hbase表创建外部表查询数据保存到linux系统创建内部表创建parquet格式snappy压缩...原创 2018-11-21 13:32:56 · 12894 阅读 · 0 评论 -
Hive - HWI 简单使用
进入HWI web页面查看数据库中的表:单击Create Session,并输入任务名称(自定义)输入相关信息Result File:结果输出文件Error File:错误输出文件(可不填)Query:需要执行的语句,一些需要设置的参数也在这里面进行Start Query:选择Yes,默认是No则为不执行,只保存写入的信息注:结果输出文件事先不存在,则为创建...原创 2018-09-21 14:04:35 · 20730 阅读 · 0 评论 -
CDH- Hive HWI 配置
目录 一、HWI安装二、其中遇到一些问题:1.遇到如下问题,将jre环境中的toos.jar 服务到lib目录下2.CDH中没有hwi相关配置参数,手动加入并修改端口为9998,发现并未生效,暂时未找到原因所在。一、HWI安装通过查看《Hadoop权威指南》发现hive有 hwi功能研究一下看看是否方便执行[root@test111 lib]# hive --...原创 2018-09-21 11:23:42 · 976 阅读 · 0 评论 -
output.properties data exceeds its limit [2048] HUE执行脚本异常
Hue执行Shell脚本报错 java.io.IOException: output.properties data exceeds its limit [2048] at org.apache.oozie.action.hadoop.LocalFsOperations.getLocalFileContentAsString(LocalFsOperations.java:86)...原创 2019-02-25 11:20:06 · 2344 阅读 · 0 评论 -
HUE集成Hbase
目录 一、Hbase开启代理用户相关配置二、代理用户授权认证三、检查HUE在hue.ini文件中指定的HBASE的本地配置目录一、Hbase开启代理用户相关配置Cloudera Manager修改Hbase配置 或Hbase配置文件-hbase-site.xml<property> <name>hbase.thrift.support.pr...原创 2019-01-04 14:50:23 · 14133 阅读 · 0 评论 -
HUE 提交Schedule 时区问题
1.配置如下,每天定时 14:02 启动2.运行后,任务状态提示,时间变成了06:02:003.修改HUE的时区配置修改后3.重启4.然后执行发现,还是不起作用,后排查了一下oozie问题,发现hue的时区配置对oozie无法生效,我们时区比oozie的快了8个小时,提交任务时提前8个小时也就是14:20执行,解决该问题~Cloudera ...原创 2018-11-26 14:21:16 · 23909 阅读 · 0 评论 -
Hue添加RDBMS(关系型数据库)
Hue添加RDBMS方式Hue界面没有Mysql添加方式,需要修改配置 切换至Hue3界面,找一下 3.发现有添加方式4.点进去发现,说要再配置文件中添加5.经查阅资料发现,需要在hue的配置中hue_safety_valve.ini 修改/添加 相关数据库配置6.添加相关配置进去[librdbms][[databases]][[[mysql]]]...原创 2018-09-14 18:06:31 · 39969 阅读 · 0 评论 -
HUE Load Balancer 启动失败
安装LoadBalancer服务的机器要安装mod_ssl,httpd解决方案:yum -y install mod_ssl注意:安装前也要安装httpd服务,安装完成后记得查看是否启动yum -y install httpd 异常信息如下:Can't open /opt/cm-5.13.0/run/cloudera-scm-agent/process/601-...原创 2018-09-14 16:50:11 · 2098 阅读 · 0 评论 -
Impala UDF - Impala调用Hive UDF函数
Impala 中运行 Hive UDF场景:部分查询需要快速返回,使用Impala进行快速、复杂的查询1.简单的UDF函数过滤,判断是否包含“好”字,返回boolean类型import org.apache.hadoop.hive.ql.exec.UDF;/** * @ClassName: UdfTest * @Description: TODO * @author: Ja...原创 2019-03-18 15:45:47 · 13805 阅读 · 1 评论 -
Impala 查询导出到文本,本地系统
Hive查询导出到文本使用insert overwrite local directory 在Impala中不支持,Impala使用,注意--output_delimiter与-B 一同使用,否则不生效impala-shell -q "select birthday,b.uid from dw_crawler.bsl_weibo_article a,ods_xxx.xxx b wh...原创 2019-02-25 15:53:08 · 1347 阅读 · 0 评论 -
Impala Shell 简单命令
目录1.更新元数据2.对查询结果去格式化3.查询结果存储到文件4.去格式化后指定分隔符5.-p或者--show-profiles:显示查询的执行计划(与EXPLAIN语句输出相同)和每个查询语句底层的执行步骤的详细信息.6.指定主机名连接 (-i)7.执行查询语句8.指定脚本文件执行SQL9.-r或者--refresh_after_connect10 -k或...原创 2018-11-12 16:03:01 · 18008 阅读 · 2 评论 -
Impala查询报错
[test:21000] default> select * from tt_user where key like '1%' limit 1;Query: select * from tt_user where key like '1%' limit 1Query submitted at: 2018-09-25 10:47:53 (Coordinator: http://test:...原创 2018-09-25 10:53:26 · 3792 阅读 · 0 评论 -
Impala-shell 查询异常 - ERROR: AnalysisException: Failed to evaluate expr: 1
直接使用impala-shell 进行最近本查询,异常 [test:21000] default> select * from tbName limit 1;Query: select * from vt_article limit 1Query submitted at: 2018-09-14 13:43:10 (Coordinator: http://fwqzx002:2500...原创 2018-09-14 13:53:40 · 3448 阅读 · 0 评论 -
Hbase 表名修改
禁用表:disable 'ods_temp:artcile_tableName'快照生成:snapshot 'ods_temp:artcile_tableName', 'artcile_tableName_Snapshot'克隆快照为新的名字:clone_snapshot 'artcile_tableName_Snapshot', 'ods_temp:article_tableName...原创 2019-01-11 15:02:12 · 1003 阅读 · 0 评论 -
HBase 2.0 之修复工具 HBCK2 运维指南
HBase 2.0 之修复工具 HBCK2 运维指南转载自:https://mp.weixin.qq.com/s/GVMWwB1WsKcdvZGfvX1lcA?spm=a2c4e.11153940.blogcont683107.11.49d762a815MegW概述 目前社区已经发布了 HBase 的 2.0 版本,很多公司都希望去尝试新版本上的新功能,但是不得不面对...转载 2019-01-07 14:58:27 · 16787 阅读 · 0 评论 -
Hbase 2.0 RegionObserver使用
参考:http://hbase.apache.org/2.0/book.html#cp Hbase2.0 不支持 1.x版本的RegionObserver ,查看hbase官网更新说明,自己做了测试并通过Hbase RegionObserver import java.io.IOException;import java.util.List;import java.ut...原创 2018-10-22 17:31:23 · 17289 阅读 · 1 评论 -
Hbase Shell 介绍
目录Scan创建表Count清空表数据删除数据删除表删除列簇判断表是否为‘enable’插入Region管理Scan查询某个表某个列的数据:scan 'tableName',{COLUMN=>列族:列,LIMIT=>需要查看条数}指定开始Rowkey查询scan 'tableName',{STARTROW=...原创 2018-10-12 10:44:49 · 8417 阅读 · 0 评论 -
Hbase Region in transition (RIT) 异常解决
查看Hbase状态,突然发现出现了RIT,并且很长时间了~查看了一些相关RIT介绍 (部分介绍和Hbase2.0不同,如:RIT状态信息2.0已不在zookeeper保存)https://mp.weixin.qq.com/s?__biz=MzU5OTQ1MDEzMA==&mid=2247483940&idx=1&sn=4121aa1bd7ef188ccc2d9...原创 2018-10-11 14:56:35 · 21284 阅读 · 0 评论 -
Hbase PageFilter 取出数量不准确问题
PageFilter pf = new PageFilter(pageFilterSize);filterList.addFilter(pf);PageFilter:设置获取的数据行数 PageFilter作用在region上,只能保证当前region返回相应的数量,也就是说大概可理解为 region数量*pageFilterSize...原创 2018-10-09 09:55:24 · 12190 阅读 · 5 评论 -
Hbase二级索引+CDH+Lily
1.更改表结构,允许复制已存在的表disable 'tableName'alter 'tableName',{NAME =>'fn', REPLICATION_SCOPE =>1}enable 'tableName'不存在的表create ‘table‘,{NAME =>‘cf‘, REPLICATION_SCOPE =>1}#其中1表示开启replicati...原创 2018-09-30 16:25:27 · 20007 阅读 · 0 评论 -
Hbase Memstore刷新方式与Region的数目上限
目录Region数目上限Region大小上限MemStore的刷新方式HLog (WAL) Size & Memstore Flush频繁的Memstore FlushesRegion数目上限RegionServer的region数目取决于memstore的内存使用,每个region拥有一组memstore(memstore的数量有hstore决定,hstore...原创 2018-09-17 16:59:46 · 64015 阅读 · 0 评论 -
HBase BlockCache系列 - 探求BlockCache实现机制
转载自:http://hbasefly.com/2016/04/26/hbase-blockcache-2/HBase BlockCache系列第一篇文章《走进BlockCache》从全局视角对HBase中缓存、Memstore等作了简要概述,并重点介绍了几种BlockCache方案及其演进过程,对此还不了解的可以点这里。本文在上文的基础上深入BlockCache内部,对各种BlockCa...转载 2018-09-17 16:34:05 · 33878 阅读 · 0 评论 -
CDH - 启动HbaseMaster时异常
测试环境 CDH,启动HbaseMaster时,启动失败,提示无法split WALs目录下的数据。解决方法:删除WALs里的数据解决该问题(数据如不可恢复勿用该方法),重启成功2018-09-14 14:43:07,254 WARN org.apache.hadoop.hbase.coordination.SplitLogManagerCoordination: Error split...原创 2018-09-14 14:55:10 · 3357 阅读 · 0 评论 -
Hbase1.2数据导入2.0
场景:现有一批之前导出的数据,发现2.0版本hbck工具更新,无法直接导入,跨机房使用export/import方式需要重新外网传输数据比较耗时,现搭建临时hbase版本1.2,在同机房进行export/import方式数据导入hbase1.2版本 CDH默认hbase用户是不可登录,修改权限,使其可登录(完成操作后记得改回来)##这里没有全部显示[root...原创 2018-09-11 15:17:36 · 1573 阅读 · 2 评论 -
Hbase Import导入数据异常处理-RetriesExhaustedWithDetailsException
CDH显示问题导致原因: hbase org.apache.hadoop.hbase.mapreduce.Import -Dmapred.job.queue.name=etl crawl:wechat_biz /hbase/test4执行import时,短时间内写入数据量过大导致写入异常。18/09/11 09:44:27 INFO mapreduce.Job: Task ...原创 2018-09-11 13:39:41 · 8156 阅读 · 0 评论