Hadoop
文章平均质量分 76
星月情缘02
宝剑锋从磨砺出,梅花香自苦寒来
展开
-
Hive 报错Sematicn Exception Invalid table alias or column reference ‘biaozhi‘ 异常
最近在使用hive时, 手动创建的表. 建表语句执行成功了, 数据也导入到表里了. 可以查询的时候, 指定biaozhi这个字段就报错.很奇怪, 排查了很长时间也不清楚哪里的问题. 后来让其他人协助一起找原因才发现是在建表是这个字段后面多了空格, 没注意导致出现这样的问题解决方法:select*from Number_deliever_prov_tmpwhere`biaozhi`=truelimit5;就是在查询时对这个字段加上空格, 不方便就最好重新...原创 2020-07-31 23:28:04 · 6469 阅读 · 0 评论 -
hiveServer2登录执行SQL错误Unknown HS2 problem when communicating with Thrift server. Error: Could not open
最近在使用hiveServer2 版本执行SQL时, 把SQL写在脚本里执行, 一直提示这个错误.Unknown HS2 problem when communicating with Thrift server.Error: Could not open client transport for any of the Server URI's in...原创 2020-05-07 09:39:06 · 10735 阅读 · 2 评论 -
Kafka分布式消息系统(搭建Zookeeper集群)
kafka使用zookeeper来管理Brokers(kafka服务进程)、执行partition(分区)的leader选举、当出现变更时向kafka发送通知(新建topic、删除topic、broker上线、broker下线)。zookeeper通常配置为集群,一般3个或者5个,其中一个为leader,其余为follower。kafka强依赖于zookeeper,如果...转载 2019-01-14 10:15:50 · 426 阅读 · 0 评论 -
hive 启动报错 Found class jline.Terminal, but interface was expected
安装好hive后,准备启动。发现报错。 错误提示是这个: Found class jline.Terminal, but interface was expected at jline.TerminalFactory.create(TerminalFactory.java:101) at j...原创 2019-01-08 15:47:31 · 445 阅读 · 0 评论 -
Hive 报错 xec.DDLTask. Cannot validate serde: org.openx.data.jsonserde.JsonSerDe 建表错误
最近想通过hive来实现解析 json 数据,通过看文档说明,可以在建表时使用序列化来执行。但是现在建表的时候报错了,费了较长时间才解决的错误呢,以下分享一下如何解决的错误。 看了一些文档得知需要把hive的jar 包添加到环境变量: 还是报错; 方法2: 需要把hive 的这个hcata...原创 2019-01-14 16:56:17 · 4876 阅读 · 6 评论 -
Hive 常用的参数优化-- 部分优化参数--可以参考
set mapred.job.queue.name=xxx; 说明: xxx 表示队列名称set hive.cli.print.header=true; 开启表头打印--简单查询不启用MR--set hive.limit.optimize.enable=true; --set hive.exec.mode.local.auto=true;...原创 2019-03-05 16:48:43 · 324 阅读 · 0 评论 -
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总...转载 2019-03-12 08:33:41 · 184 阅读 · 0 评论 -
hadoop中MapReduce作业的调度过程分析 -- yarn 资源调度
Hadoop生态圈中的资源调度工具,莫过于yarn框架了,可以支持各种计算引擎的资源分配与调度实现。以下是关于yarn框架的具体说明分析。首先看看它的组成结构。,1. 主节点ResourceManager: (1)YARN 集群的主节点 ResourceManager 的职责: 1)处理客户端请求 2)启动...原创 2019-04-16 17:22:08 · 1014 阅读 · 0 评论 -
HIVE-分桶表的详解和创建实例
我们先建立一个分桶表,并尝试直接上传一个数据create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets row format delimited fields terminated by ','...转载 2019-04-30 22:19:37 · 550 阅读 · 0 评论 -
hive 查询报错 Failed to recognize predicate 'date Failed rule: 'identifier' in table or column identi
前段时间在使用hive查询表时,发现分区字段是date ,hive会马上返回错误信息。具体错误如下截图。很奇怪,之前没遇到过这样的错误。 FAILED: ParseException line 1:32 Failed to recognize predicate 'date'. Failed rule: 'identifier' in table or column i...原创 2019-06-26 15:32:17 · 7757 阅读 · 1 评论 -
Hadoop 日常运维中的一些问题汇总整理
对于运维需要时刻保证服务的稳定和高可用。以下是一些对Hadoop群集运维过程中遇到的一些问题总结。有包含到大家遇到的可以参考。 1. 问题1在集群执行hive脚本时,hive.log报错如下java.lang.InterruptedException解决办法:原因是因为线程在等待过程中长期获取不到资源被终止, 可以通过修改下面的配置进行优化:dfs...转载 2019-07-02 16:12:12 · 1645 阅读 · 0 评论 -
Hive 数据存储格式介绍总结
Hive 常用的存储格式如下。以下包括对数据压缩与性能方面的总结。Text File format : 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。Sequence File format :SequenceFile 是 Hadoop API 提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。S...原创 2019-06-28 17:00:27 · 152 阅读 · 0 评论 -
kafka分布式消息系统集群搭建-- 详细过程
大数据圈内,知名的消息队列就属于kafka了。是属于Apache 开源组织中的顶级项目,也是高并发的大数据消息订阅发布系统。包括国内外很多的互联网公司在处理海量消息数据时的不二之选。 下面具体介绍一下kafka集群的安装过程。 1. 通信架构 采用这种方...转载 2019-01-14 10:13:18 · 832 阅读 · 0 评论 -
Hadoop执行MapReduce作业的过程-案例-计算pi的值
在安装好了Hadoop集群后,我们是不是马上想去实践一下,做个例子来测试它是否符合我们的要求呢。这样,我们使用系统的例子来测试,也就最常见的求PI 的值。 首先要启动好集群。hdfs 和yarn相关进程都启动,并且正常,才能执行mapreduce作业,因为执行作业需要调用资源,就必须启动yarn 服务。 以上是正常的。 我们就可...原创 2019-01-07 10:50:26 · 5308 阅读 · 5 评论 -
CDH 安装hadoop 集群中的一些问题归纳--- 持续更新
最近自己在研究CDH 安装Hadoop集群,CDH 集群的好处就是可以不用手工修改大量的配置文件,然后去分发到所有的机器中,节省大量的人力和时间。效率比较高,一般配合CM 的图形界面来完成所有操作,包括集群的扩展与服务的升级,重启等都可以使用cloudera-manager 来完成。官方也推荐安装的时候通过cm 来部署cdh 集群,而且cm 还自带了一些简单的监控功能,比...原创 2019-01-02 11:08:00 · 536 阅读 · 0 评论 -
SparkStreaming 性能调优
在开发Spark Streaming应用程序时,要结合集群中各节点的配置情况尽可能地提高数据处理的实时性。在调优的过程中,一方面要尽可能利用集群资源来减少每个批处理的时间;另一方面要确保接收到的数据能及时处理掉。运行时间优化设置合理的批处理时间和窗口大小Spark Streaming中作业之间通常存在依赖关系,后面的作业必须确原创 2017-10-15 14:47:27 · 1201 阅读 · 0 评论 -
hive学习总结笔记
本文不介绍 hive的入门基础知识,只说一些关于hive的使用经验。1)牢记一点hive只是一个基于Hadoop的数据仓库工具,把sql转换成mapreduce,它的强项在于数据统计、方便灵活开发测试,对于复杂的etl逻辑建议用临时表分阶段去处理或者编写mapreduce程序处理。2)关注hive sql是否造成数据倾斜。 解决数据倾斜的办法。了解你的数据分布如:是否某些key是其原创 2017-10-16 10:21:16 · 406 阅读 · 0 评论 -
linux 服务器搭建ssh 免密登录操作
Linux下实现免密码登录(超详细) 首先说一下,为什么要设置免密登录,这样的好处是因为,我们在服务器传送文件时每次要输入密码会很麻烦。如果做了ssh免密码登录,相对会方便很多。下面开始介绍操作步骤。1.登录shell , 输入命令 ssh-keygen -t ...转载 2018-05-27 13:17:29 · 320 阅读 · 0 评论 -
hadoop 集群搭建异常, UnknownHostException Name or service not known
最近在搭建hadoop 集群的过程中, 格式化namenode 时出现了一个错误就是: Re-format filesystem in Storage Directory /home/hadoop/hadoop/tmp/dfs/name ? (Y or N) Y18/05/28 03:56:36 WARN net.DNS: Unable to determine local host...原创 2018-05-28 16:05:34 · 6265 阅读 · 0 评论 -
hadoop shell 常用的命令解释含义
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中...原创 2018-07-19 18:01:33 · 487 阅读 · 0 评论 -
Hive 的使用操作方法-表创建,删除,分区的增删,修改表结构,重命名,行列互转和sql查询
Hive 的使用操作方法-表创建,删除,分区的增删,修改表结构,重命名,行列互转和sql查询 做大数据或数据分析的人员应该都非常熟悉Hive吧,它是一款强大的数据分析工具,就是类sql查询语句,可以把复杂的MapReduce任务转换为sql查询,方便了数据分析人员快速定位分析结果。hive是Apache软件基金会的开源的数据分析工具,功能强大,包括直接分析出结果,做ETL中的...原创 2018-08-12 16:24:17 · 2378 阅读 · 0 评论 -
kettle 7.1 打开后没有出现资源库的连接按钮解决办法-自己亲测解决
大家做ETL数据分析处理的话,应该对kettle都不陌生吧,它是一款高效的etl处理工具,kettle 可以创建转换和作业两种任务,转换以.ktr 结尾,作业以.kjb 结尾。 为了管理方便,我们可以把它作为本地文件保存或保存到资源库,其中资源库又分为文件资源库和数据库资源库,其中数据库使用的最多啦。 在linux 环境下做的测试,发现打开kettle后不能找...原创 2018-08-17 16:25:24 · 21826 阅读 · 4 评论 -
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结
错误总结分享: 使用了hadoop挺长时间了,多数人应该很熟悉它的特点了吧,但是今天突然遇到个错误,从来没见过,一时自己也想不到是什么原因,就在网上查了一些资料,得到了解决的办法,再次分享一下。 过程: 使用kettle 数据清洗工具在进行同步任务的过程中,最后数据是被加载到hdfs的,这里用shell脚本实现,hdfs dfs -put...原创 2018-10-29 18:05:57 · 3283 阅读 · 0 评论 -
ParseException line 20:7 Failed to recognize predicate 'timestamp'. Failed rule: 'identifier' in tab
今天在执行 hive ql 时,突然出现了这个错误,之前没遇到过。就自己在网上找原因,看了几篇回复都是不搭边的,都不想继续了,不过也给自己了个思路,有一篇英文贴是有效的。 就尝试了修改操作,SET hive.support.sql11.reserved.keywords=false; 这个设置就是表明: 建表的字段名,最好不要使用保留字。如果已经使用了...原创 2018-11-20 14:55:22 · 4567 阅读 · 0 评论 -
hadoop的50070端口不能访问网页的解决方法-总结
在Hadoop集群搭建完成后,hadoop本身自带了一个webUI访问页面,我们可以观察到一些集群的基本状况,包括磁盘容量和集群节点是否正常存活状态,Hadoop版本,可以查看hdfs的一些文件位置,副本备份情况和文件块大小等。虽然功能简单一些,但是也还可以,能看一些集群的基本信息。当然我们也可以根据需要来自定义开发需要的功能,实现网页操作所有的服务。 ...原创 2018-12-28 11:13:17 · 75666 阅读 · 32 评论