![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 78
YQlakers
这个作者很懒,什么都没留下…
展开
-
hadoop上的两种运行mapreduce程序的方法
之前学习了一段时间的hadoop的相关知识 ,学习理论基础的时候要同时实际操作才能对它更熟练,废话不多说来说说在hadoop上运行一个最简单的words count的程序首先我先贴上这个程序的源代码 供大家参考 代码分为三个部分写的Run、 map阶段、 reduce阶段Map:package wordsCount;import java.io.IOExcept原创 2017-04-13 19:22:18 · 16356 阅读 · 4 评论 -
Hive的UDF是什么?
首先我们学习hadoop的时候,为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程,Hive被设计出来了。Hive就好比是hadoop在执行MR(mapreduce)程序的一个操作系统,因为我们可以用简单的SQL语句去代替复杂的MR程序,因为Hive可以将我们的SQL语句转化为MR程序然后去执行。Hive的语法和SQL的语法很多地方是相同的,所以说它就是原创 2017-04-17 15:18:43 · 29992 阅读 · 0 评论 -
Lucene4.4.0几种分词方法
一、WhitespaceAnalyzer以空格作为切词标准,不对语汇单元进行其他规范化处理。很明显这个实用英文,单词之间用空格。package bond.lucene.analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.core.WhitespaceA转载 2017-04-27 14:44:28 · 751 阅读 · 0 评论 -
Spark on yarn和Hadoop on yarn的区别
Apache Spark 的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与 Hadoop 2.0(包括 YARN 和MapReduce)是一致的。Hadoop 2.0 自己实现了类似 Actor 的异步并发模型,实现方式是 epoll+状态机,而 Apache Spark 则直接采用了开源软件Akka,该软件实现了 Actor 模型,性能非常高。原创 2017-05-31 10:30:59 · 3489 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现解析
Hadoop NameNode 高可用 (High Availability) 实现解析WeiboGoogle+用电子邮件发送本页面 0NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着转载 2017-06-04 21:54:07 · 655 阅读 · 0 评论 -
从分布式一致性谈到CAP理论、BASE理论
问题的提出在计算机科学领域,分布式一致性是一个相当重要且被广泛探索与论证问题,首先来看三种业务场景。1、火车站售票假如说我们的终端用户是一位经常坐火车的旅行家,通常他是去车站的售票处购买车票,然后拿着车票去检票口,再坐上火车,开始一段美好的旅行----一切似乎都是那么和谐。想象一下,如果他选择的目的地是杭州,而某一趟开往杭州的火车只剩下最后一张车票,可能在同一时刻,不同售票窗口的另一位转载 2017-06-04 22:42:25 · 342 阅读 · 0 评论 -
Zookeeper全解析——Paxos作为灵魂
那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server中对应的实现。先说Paxos,它是一个基于消息传递的一致性算法,Leslie Lamport在1990年提出,近几年被广泛应用于分布式计算中,Google的Chubby,Apache的Zookeeper都是基于它的理论来实现的,Paxos还被认为是到目前为止唯一的分布式一致性算转载 2017-05-22 21:30:03 · 572 阅读 · 0 评论 -
hadoop面试常见问题及相关总结
1. Map任务将其输出写入本地磁盘,而非HDFS,为什么?答:因为map的输出是中间结果:该中间结果由reduce任务处理后才产生最终的结果。而且一旦作业完成,map的输出结果就可以删除。因此如果把它存储在HDFS中并实现备份,难免有小题大做。2. 为什么最佳分片大小应该和块(block)大小相同(hadoop2.x默认是128Mb,hadoop1.x是64M原创 2017-07-21 14:29:02 · 1337 阅读 · 0 评论 -
大数据相关面试问题
面试问题1. Innnodb和MyIASM的区别Innodb引擎Innodb引擎提供了对数据库ACID事务的支持,并且实现了SQL标准的四种隔离级别。该引擎还提供了行级锁和外键约束,它的设计目标是处理大容量数据库系统,它本身其实就是基于MySQL后台的完整数据库系统,MySQL运行时Innodb会在内存中建立缓冲池,用于缓冲数据和索引。但是该引擎不支持FULLTEXT类型的原创 2017-08-23 09:43:45 · 1524 阅读 · 0 评论