Hadoop
张兆坤的那些事
最近主要折腾kubernetes、istio、SpringCloud、可观测性这个四个方向,内容多且复杂,最重要是坚持!
展开
-
How To Write Map-Reduce OnHadoop
概述Hadoop Map-Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map-Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的转载 2010-05-09 21:55:00 · 2695 阅读 · 1 评论 -
在Centos下hadoop native-library错误
hadoop-2.7.3 + Centos 6.7 64位环境下使用弄一套Hadoop环境过程的中使用 hadoop checknative -a来检查环境支持Hadoop native 的状态。原创 2016-03-21 23:23:32 · 8052 阅读 · 0 评论 -
Sqoop1.4.5+hadoop2.2.0进行Mysql到HDFS的数据转换
正如上一篇记录的那样,采用sqoop1.99.4 + hadoop2.2.0来将mysql的表数据导入到HDFS的时候,死活没有找到如何制定字段分隔符号,这才有了试用sqoop1.4.5这番折腾。从架构上来将,Sqoop2确实在安全性等方面有很好的提升,但是Sqoop2目前还不推荐在生产环境中使用,它很多功能还缺失,不够完善,不过,对我们小规模的使用Hadoop的公司来讲,Sqoop1.4.X足够用了,毕竟我等跨部门、多人员来使用的情况还是比较少的,命令行好用的很啊!原创 2015-03-16 22:32:44 · 10794 阅读 · 1 评论 -
用Sqoop2在Mysql和hadoop导入导出数据
最近在做用户刷赞排除逻辑的时候,需要结合nginx的access.log日志和Mysql中的部分记录联合查询才能做到,之前的nginx日志一直存放在hadoop中,mysql的数据则没有导入到hadoop中去过,要搞定这事还得将Mysql中的一些表导入到HDFS中去才成。虽说Sqoop的大名早已经闻名遐迩了,但是到底没有在生产环境中试用过,这回倒是一个很好的实践机会。原创 2015-03-14 09:40:25 · 22674 阅读 · 1 评论 -
Hadoop2.2.0基于QJM的HA实践
日志分析集群已经搭建起来了,但是我总觉得NN没有采用HA是一个大大的隐忧,让我一直不敢把测试集群正式投入使用,总是担心把大批量的日志文件弄过来后,NN挂掉或者硬盘故障的话那就什么都白费工夫,遂决定要把NN的HA也搞起来。Hadoop2.2.0的NN的HA目前有两种方式,贫民的方式自然是QJM了,它会采用类似Zookeepr的方式来保存NN的LOG,而NFS的模式显然不是我等几台机器组成的集群的原创 2014-01-05 22:44:40 · 7986 阅读 · 7 评论 -
hive使用案例
(1)UDF 开发与使用实原创 2014-05-25 15:36:57 · 9821 阅读 · 0 评论 -
hbase-0.98.3小试牛刀
最近一直在考虑统计分析的基础数据、中间shuju原创 2014-06-29 23:30:26 · 4320 阅读 · 0 评论 -
Hadoop2.2.0使用之初体验
离10月15日Hadoop发布2.2.0这个稳定版本已经过去2个月了,最近终于抽了点时间搭建了一个3节点的集群,体验了一把YARN上如何跑Map/Reduce程序了。每次搭建Hadoop测试集群都或多或少的碰到一些问题,几乎没有一次是一步到位的了,这次也不例外,也碰到过几个问题,不过Google很快帮忙解决了。这次的机器是机房的3台备用机器:OS:64位的CentOS 6.4【19原创 2013-12-21 12:16:20 · 14432 阅读 · 1 评论 -
Hadoop2.2.0+hive使用LZO压缩那些事
废话不多说,我在apache Hadoop2.2.0测试集群上配置支持使用LZO进行压缩的时候,遇到很多坑,不过最后到搞定了,这里把具体过程记录下来,以供参考。环境:Centos6.4 64位Hadoop2.2.0Sun JDK1.7.0_45hive-0.12.0准备工作:yum -y install lzo-devel zlib-devel gcc aut原创 2013-12-27 00:02:18 · 13679 阅读 · 6 评论 -
Hadoop2.2.0来了,大数据各框架又风起云涌!
2013年10月15日Hadoop2的稳定版本2.2.0发布了!它解决了NameNode的水平扩转问题,也解决了NameNode的单点故障问题,也引入了引领大数据下一轮次革命的具有划时代意义的资源管理框架YARN! 话说大数据2.0时代的来临就是以YARN为基础的新一代Hadoop框架的发布为起点。 原来的Hadoop上只跑一个MapRedeuce来进行离线计算原创 2013-11-04 22:28:20 · 3728 阅读 · 0 评论 -
Hive入门参考
最近需要利用Hive来从Hadoop集群中分析数据,遂学习了一下Hive,大概浏览了一下Hive的wiki信息之后,还是决定先从中文的资料找起,学习下前人的经验,少走弯路,在这个过程,发现了几篇我自认为写得还不错的博文,统一收集起来记录在这里,以供后续参考!1、Hive加速Map/Reduce的开发http://dueam.org/2010/06/hive-%E5%8A%A0%E9%80%原创 2011-05-31 23:30:00 · 2472 阅读 · 0 评论 -
Hadoop运维那些事
在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。1、Namenode的高可靠性2、节点配置与管理3、Mapreduce的内存配置4、启用trash首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差的时候,其实是你对Hadoop的了解太少,Hadoop的效率没有被发挥出来。数据的可原创 2012-09-07 07:51:36 · 6070 阅读 · 0 评论 -
HBase使用初体验
一直以来对HBase的了解仅仅限于理论上的,最近想进行深入的学习下,当然对一个东东的学习最为直接的就是直接进行体验一下。为此,我在一个VM的Hadoop集群上安装了一个Hbase集群,期间也遇到了好几种不同的错误,现记录如下,以供后续参考。 Hbase集群配置信息如下:Hadoop:hadoop-0.20.2,1 个Master节点 1 个Slave节点Zookeeper:zo原创 2011-05-22 20:41:00 · 8721 阅读 · 0 评论 -
在Redhat AS6上搭建Hadoop集群总结
于本周末在家里的两台电脑上用Vmware+Redhat As6 + hadoop-0.21.0上搭建了一个3节点的Hadoop集群,虽说是原来已经搭建过类似的集群了,也跑过JavaAPI来操作HDFS与Map/reduce,但是这一次依然是受到挑战了,好些小细节,稍有遗漏就会有如坐过山车一般大起大落。故此,记下本次的操作的几个步骤,以供后续参考。1、建3个VM的虚拟机,保证互联互通IP a原创 2011-05-08 21:42:00 · 3994 阅读 · 3 评论 -
对Hadoop中一段将字节码数组转换为Integer的代码的思考
在Hadoop的类org.apache.hadoop.io.WritableComparator中有如下一段代码,完成将Integer值序列化后对应的字节码数组重新反序列化为Integer的功能。 /** Parse an integer from a byte array. */ public static int readInt(byte[] bytes, int start) {原创 2010-05-23 12:13:00 · 2231 阅读 · 1 评论 -
利用JavaAPI访问HDFS的文件
1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.tmp.dir>/home/zhangzk/hadoopA base for other temporary directori原创 2010-05-16 14:34:00 · 46433 阅读 · 14 评论 -
hadoop-2.7.2+hive 2.0.0采用LZO压缩的坑好深
一句话,hive-2.0.0没法应用到LZO文件的分片,无论多大的文件,都还是当成一个再来该干嘛干嘛!话说,hadoop-lzo.jar根本就没有被用到,当然没有这个,提交JOB的时候就会错了,但是真的等到JOB+TASK都跑的时候,LZO文件就不分片了。hive-2.0.0相比之前的版本已经大变样 了!原创 2016-03-24 00:03:32 · 5257 阅读 · 0 评论