Hadoop
文章平均质量分 53
zxl333
这个作者很懒,什么都没留下…
展开
-
hive3的join数据错误
我们生产使用的hive3.1.2版本,hadoop也是3版本,用户通过使用hive发现join数据错误。分析SQL发现,当3表(含3表)以上,hive join出来的数据是错误。后来我通过测试发现,不管是left join、inner join还是right join,数据都会出现错误,通过后来的其他测试发现,两个表使用in和exists作为条件查询,出来的数据也是错误的。这是hive3的一个重大bug,使用hive3的小心了。 这个bug纠缠了我好久,后来定位出来hive...原创 2022-03-02 14:34:46 · 2915 阅读 · 3 评论 -
大数据遇到的坑
春去秋来,转眼一年又快过去了,这大半年遇到的坑再不记录就忘记了。公司hadoop集群从年初的200台多点到现在的700+,用户越来越多,遇到的坑就越来越多,大坑必须做好熬夜的准备,还好每一次加班都填平了坑。1、hive丢数据了 最近周五将要下班的时候接到同事的电话说一个作业丢数据了将近200万,顿时隐隐感觉不妙,立马投入查看作业日志的进程中。分析作业日志发现临时...原创 2019-09-21 16:20:40 · 2780 阅读 · 2 评论 -
hive使用exists时把join条件放在where条件里,导致第三个join开始的条件都丢失
测试模拟数据准备:test_table1cust_no,name60001,lisa60002,tina60003,kylin60004,jeny60005,john60006,jamsetest_table2cust_no,acct_type60001,160001,160001,260002,160003,260003,3test_table3cust...原创 2019-04-16 14:40:36 · 810 阅读 · 0 评论 -
Flume 采集rsyslog整个配置和流程
使用flume采集web服务器日志,架构见图每台webserver 的agent的配置:#configuration 'flume74Agent'flume74Agent.sources=source74flume74Agent.sinks=sink74-1 sink74-2flume74Agent.channels=channel74#c原创 2016-01-28 15:07:06 · 4844 阅读 · 0 评论 -
hadoop-2.6.2所有配置文件参数
yarn.fail-fastfalseyarn-default.xmlmapreduce.job.ubertask.enablefalsemapred-default.xmlyarn.resourcemanager.max-completed-applications10000yarn-default.xmlyarn.resourcemanager.delayed.delegation-to原创 2015-12-03 14:32:29 · 4600 阅读 · 1 评论 -
hbase-1.0.2所有配置文件参数
查看HBase所有配置文件参数,可以通过浏览器访问16010(旧版本60010)端口,点击HBase Configuration就能看到所有的配置参数,以下是我获取的配置参数:dfs.journalnode.rpc-address0.0.0.0:8485hdfs-default.xmlio.storefile.bloom.block.size131072hbase-default.xml原创 2015-12-03 14:37:29 · 2669 阅读 · 0 评论 -
Could not connect to ZooKeeper slave01:2181,slave02:2181,slave03:2181
这是在通过写MapReduce读取HBase的数据,给指定的列加上索引到solr发现的zookeeper.out日志:2015-11-20 16:59:20,603 [myid:3] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@193] - Too many connections from原创 2015-11-20 17:20:53 · 4813 阅读 · 0 评论 -
MapTask虚拟内存不足
运行时报错信息:Backend error message---------------------AttemptID:attempt_1431928337591_3554_m_000000_0 Info:Container killed by the ApplicationMaster.Backend error message----------------原创 2015-10-30 15:17:01 · 919 阅读 · 0 评论 -
Hadoop学习---第一篇搭建Hadoop集群
开始学习大数据,为了更好的掌握大数据技术,写此博客来记录自己的学习本环境是基于CentOS6.4 32位,jdk1.7,Hadoop2.4.1搭建1、新建一台虚拟机,安装好Linux CentOS系统 2、修改虚拟机IP地址,用root身份登录:vim /etc/sysconfig/network-scripts/ifcfg-eth0,修改为以下内容然后保存 DEVICE="原创 2015-05-24 23:09:05 · 971 阅读 · 0 评论 -
Hadoop知识汇总
Hadoop的两大功能:海量数据存储和海量数据分析Hadoop2的三大核心组件是:HDFS、MapperReducer和yarn1、HDFS:分布式文件系统海量数据存储2、MapperReducer:运算框架,海量数据分析3、yarn:资源调度管理集群 HDFS工作机制:基于namenode和datanode1、namenode:响应客户端的请求;负责维护整个原创 2015-06-27 12:10:30 · 1088 阅读 · 0 评论 -
Hadoop加zookeeper搭建高可靠集群
前期准备1.修改Linux主机名,每台都得配置vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop-server12.修改IP /etc/sysconfig/network-scripts/ifcfg-eth03.修改主机名和IP的映射关系vim /etc/hosts192.168.146.181原创 2015-06-24 17:59:47 · 6836 阅读 · 1 评论 -
Hadoop学习---第三篇Hadoop的第一个Mapreduce程序
Mapreducer程序写了好几个了,但是之前一直都没有仔细的测试过本地运行和集群上运行的区别,今天写了一个Mapreduce程序,在此记录下来。 本地运行注意事项有以下几点:1、本地必须配置好Hadoop的开发环境2、在src里不加入配置文件运行,或者如果本地的src里有mapred-site.xml和yarn-site.xml配置文件,那么mapreduce.framework.n原创 2015-05-30 21:50:13 · 1099 阅读 · 0 评论 -
Hadoop学习---第四篇Mapreducer里的Partitioner
Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理;Partition功能由partitioner的实现子类来实现每写一段代码都会加深理解,程序里记录了自己的理解FlowBean类源码:package cn.zxl.flowcountpartitioner;import java.io.DataInput;import j原创 2015-05-31 11:03:37 · 3080 阅读 · 1 评论 -
Hadoop学习---第二篇搭建Hadoop开发环境
Hadoop集群搭建好了,我们就可以开发了,那么就涉及到Hadoop开发环境的搭建。 Hadoop最好是在Linux系统上的Eclipse里开发,这就能省好多麻烦事。在Linux的Eclipse里开发就只需导入Hadoop的jar包就行,jar包需要哪些根据自己的开发需求而定,不清楚那就导入所有的jar包。因为我们大部分人都习惯了在windows里开发,所以在windows搭建Ha原创 2015-05-28 20:11:56 · 758 阅读 · 0 评论