大数据-Spark&Hadoop
文章平均质量分 73
大数据-Spark&Hadoop
OkidoGreen
这个作者很懒,什么都没留下…
展开
-
Hadoop+Spark Windows安装部署参考博客
(497条消息) windows下hadoop的部署和使用_luoye4321的专栏-CSDN博客_windows 配置hadoophttps://blog.csdn.net/luoye4321/article/details/90552674(497条消息) spark-submit local本地运行问题_RiverCode的博客-CSDN博客_spark submit 本地https://blog.csdn.net/RiverCode/article/details/71542169(497条消息)原创 2021-12-27 15:36:40 · 830 阅读 · 0 评论 -
Hadoop 找不到 JAVA_HOME 环境变量无法启动问题解决
在控制台中输入hdfs后提示Error: JAVA_HOME is incorrectly set. Please update C:\hadoop\conf\hadoop-env.cmd错误如下图打开C:\hadoop-3.2.0\etc\hadoop\hadoop-env.cmd(你的文件在哪就去哪找),原来是配置文件的问题,我的JAVA_HOME目录是C:\Program Files\Java\jdk1.8.0_121,因为Program Files中存在空格,所以出现错误,只需要..转载 2021-12-08 15:18:39 · 2839 阅读 · 0 评论 -
Spark多种运行模式
刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种运行模式,官网和书籍中对他们的区别所说不详,尤其是模式之间是否有关联、启动的JVM进程是否有区别、启动的JVM进程的作用是否都一样,等等这些都没有说明,也没有现成的资料可以查询。所以,我今天总结一下,供新手参考和学习(下述结论基于Spark2.1.0版本和hadoop2.7.3版本)1,测试或实验性质的本地运行模式 (单机)该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证转载 2021-12-08 14:58:48 · 1773 阅读 · 0 评论 -
Windows 下 Spark+Hadoop+Scala 安装
整体流程可参考,但文中的版本较低Spark学习笔记--Spark在Windows下的环境搭建 - 法号阿兴 - 博客园 (cnblogs.com)https://www.cnblogs.com/xuliangxing/p/7279662.html首先需要对应好 三者的版本,本文安装的版本如下Spark版本:spark-3.1.2-bin-hadoop3.2.tgz链接:Apache Downloadshttps://www.apache.org/dyn/closer.lua/spark/sp原创 2021-12-08 11:08:02 · 2221 阅读 · 0 评论 -
MapReduce使用hcatalog读写hive表
本文主要是讲mapreduce使用HCatalog读写hive表。hcatalog使得hive的元数据可以很好的被其它hadoop工具使用,比如pig,mr和hive。HCatalog的表为用户提供了(HDFS)中数据的关系视图,并确保用户不必担心他们的数据存储在何处或采用何种格式,因此用户无需知道数据是否以RCFile格式存储, 文本文件或sequence文件。它还提供通知服务,以...转载 2020-03-05 11:11:21 · 1795 阅读 · 0 评论 -
Java实战-hadoop patition 分区简介和自定义
0 简介:0) 类比于新生<k,v>入学,不同的学生实现分配好了宿舍,然后进入到不同的宿舍(reduce task)如果map发送来的数据量太大,意味着这些数据都到这个默认reduce节点执行,没有发挥reduce并行计算的目的,IO压力也很大。 这就是分区的原因。a) 默认下分配一个区b) 分配几个区,则对应几个reduce任务,每个任务在执行的时候都会公用...转载 2020-03-04 19:47:31 · 640 阅读 · 0 评论 -
使用Java API方式的MapReduce练习
众所周知,hadoop生态圈的多数组件都是使用java开发的。那么使用Java API方式实现起来,显得要比其它语言效率更高,更原生态。前面有一个Hadoop学习笔记02_MapReduce练习是在Linux下直接使用的python2.7实现的。这里我试试windows下用 java 来练习实现。→_→ 确认过眼神~~ 我是新手,感觉IDEA创建maven要比eclipse方便,更加...转载 2020-03-04 15:58:31 · 740 阅读 · 0 评论 -
Hadoop MapReduce原理及实例
http://blog.csdn.net/bingduanlbd/article/details/51924398MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过程分为两个步骤:map和reduce。每个阶段的输入输出都是key-value的形式,key和val转载 2018-02-13 18:27:44 · 804 阅读 · 0 评论 -
关于MapReduce的理解?
其实我们可以从word count这个实例来理解MapReduce。MapReduce大体上分为六个步骤:input, split, map, shuffle, reduce, output。细节描述如下: 输入(input):如给定一个文档,包含如下四行: Hello Java Hello C Hello Java Hello C++ 拆分(spl转载 2018-02-13 18:09:16 · 748 阅读 · 0 评论 -
MapReduce编程(入门篇)
一. MapReduce 编程模型还是以一个经典的图片来说明问题.1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partit转载 2015-08-23 11:09:29 · 1747 阅读 · 0 评论 -
我是如何向老婆解释MapReduce的?
我是如何向老婆解释MapReduce的?昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebia印度办公室享用了丰盛的晚餐,然转载 2015-08-23 11:08:18 · 1147 阅读 · 0 评论