Hadoop
文章平均质量分 92
老薛的猫出海抓鱼不在这
哎吆~技术小渣
展开
-
DeBug调试解决在跑MapReduce程序时,出现Caused by: java.lang.ArrayIndexOutOfBoundsException: 1(数组越界异常)问题
在跑MapReduce程序时,出现了Caused by: java.lang.ArrayIndexOutOfBoundsException: 1(数组越界异常)分析过程:从这些提示信息中可以获取如下信息:1、错误发生在17行,找到对应行2、发生错误的时候,下标的值为1接下来分析为什么下标值为什么是1时出现越界,就可以解决了。我们使用打断点的方式找到问题根源:再出...原创 2019-10-13 13:49:47 · 4466 阅读 · 2 评论 -
实验十七 Spark实验:Spark SQL
实验指导:17.1 实验目的1. 了解Spark SQL所能实现的功能;2. 能够使用Spark SQL执行一些sql语句。17.2 实验要求1. 能在实验结束之后完成建立数据库,建立数据表的数据结构;2. 建立数据表之后能在Spark SQL中执行SQL语句进行查询;3. 练习怎么向Spark SQL中导入数据。17.3 实验原理Spark SQL用于以交互式...原创 2019-04-10 13:04:23 · 2103 阅读 · 0 评论 -
实验十六 Spark实验:Spark综例
实验指导:16.1 实验目的1. 理解Spark编程思想;2. 学会在Spark Shell中编写Scala程序;3. 学会在Spark Shell中运行Scala程序。16.2 实验要求实验结束后,能够编写Scala代码解决一下问题,并能够自行分析执行过程。有三个RDD,要求统计rawRDDA中“aa”、“bb”两个单词出现的次数;要求对去重后的rawRDDA再去掉r...原创 2019-04-10 09:30:09 · 2928 阅读 · 0 评论 -
实验二十一 ZooKeeper进程协作
实验指导:21.1 实验目的掌握Java代码如何连接ZooKeeper集群及通过代码读写ZooKeeper集群的目录下的数据,掌握ZooKeeper如何实现多个线程间的协作。21.2 实验要求用Java代码实现两个线程,一个向ZooKeeper中某一目录中写入数据,另一线程监听此目录,若目录下数据有更新则将目录中数据读取并显示出来。21.3 实验原理通过ZooKeeper实...原创 2019-04-20 21:10:05 · 963 阅读 · 0 评论 -
实验十五 Spark实验:RDD综合实验
实验指导:15.1 实验目的1. 通过Spark-shell的操作理解RDD操作;2. 能通过RDD操作的执行理解RDD的原理;3. 对Scala能有一定的认识。15.2 实验要求在实验结束时能完成max,first,distinct,foreach等api的操作。15.3 实验原理RDD(Resilient Distributed Datasets,弹性分布式数据...原创 2019-04-13 20:54:42 · 4083 阅读 · 0 评论 -
实验十八 Spark实验:Spark Streaming
实验指导:18.1 实验目的1. 了解Spark Streaming版本的WordCount和MapReduce版本的WordCount的区别;2. 理解Spark Streaming的工作流程;3. 理解Spark Streaming的工作原理。18.2 实验要求要求实验结束时,每位学生能正确运行成功本实验中所写的jar包程序,能正确的计算出单词数目。18.3 实验原...原创 2019-04-14 20:00:50 · 2782 阅读 · 0 评论 -
实验二十二 部署HBase
实验指导:22.1 实验目的1. 掌握HBase基础简介及体系架构;2. 掌握HBase集群安装部署及HBase Shell的一些常用命令的使用;3. 了解HBase和HDFS及Zookeeper之间的关系。22.2 实验要求1. 巩固学习下实验一、实验二、实验二十;2. 部署一个主节点,三个子节点的HBase集群,并引用外部Zookeeper;3. 进入HBase...原创 2019-04-22 21:18:49 · 733 阅读 · 0 评论 -
实验二十 部署ZooKeeper
实验指导:20.1 实验目的掌握ZooKeeper集群安装部署,加深对ZooKeeper相关概念的理解,熟练ZooKeeper的一些常用Shell命令。20.2 实验要求部署三个节点的ZooKeeper集群,通过ZooKeeper客户端连接ZooKeeper集群,并用Shell命令练习创建目录,查询目录等。20.3 实验原理ZooKeeper 分布式服务框架是 Apache...原创 2019-04-19 22:39:58 · 1491 阅读 · 0 评论 -
实验十九 Spark实验:GraphX
实验指导:19.1 实验目的1.了解Spark的图计算框架GraphX的基本知识;2.能利用GraphX进行建图;3.能利用GraphX进行基本的图操作;4.理解GraphX图操作的算法。19.2 实验要求要求实验结束时,每位学生能完成正确运行Spark GraphX的示例程序,正确上传到集群中运行得到正确的实验结果。实验结束时能对实验代码进行一定的理解。19....原创 2019-04-20 00:11:39 · 1731 阅读 · 0 评论 -
实验三十九 综合实战:推荐系统
实验指导:39.1 实验目的了解常用的基于矩阵分解的协同过滤推荐算法的基本原理,掌握Spark MLlib中对基于模型的协同过滤算法的封装函数的使用,对Spark中机器学习模块内容加深理解。39.2 实验要求1. 实验提供数据集,包含用户数据、电影数据、电影评分数据以及我的评分数据;2. 根据提供的电影评分数据,利用Spark进行训练,得到一个最佳推荐模型;3. 用实际数据...原创 2019-05-21 09:43:34 · 1325 阅读 · 0 评论 -
实验三十二 LevelDB实验:读写LevelDB
实验指导:32.1 实验目的1.了解LevelDB的使用场景;2.理解LevelDB数据存储结构;3.比较LevelDB和redis的区别;4.能对LevelDB的整体架构有一定的了解;5.能正确的使用LevelDB并能进行简单使用。32.2 实验要求本实验要求同学能够使用C++语言完成对LevelDB库完成以下操作:1.连接到LevelDB数据库;2.写入...原创 2019-05-22 19:51:24 · 1126 阅读 · 0 评论 -
实验十二 Hive实验:Hive分区—学习建立和使用Hive分区
实验指导:12.1 实验目的掌握Hive分区的用法,加深对Hive分区概念的理解,了解Hive表在HDFS的存储目录结构。12.2 实验要求创建一个Hive分区表;根据数据年份创建year=2014和year=2015两个分区;将2015年的数据导入到year=2015的分区;在Hive界面用条件year=2015查询2015年的数据。12.3 实验原理分区(Partiti...原创 2019-03-27 09:17:14 · 796 阅读 · 0 评论 -
实验十一 Hive实验:新建Hive表
实验指导:11.1 实验目的1. 学会创建Hive的表;2. 显示Hive中的所有表;3. 显示Hive中表的列项;4. 修改Hive中的表并能够删除Hive中的表。11.2 实验要求1. 要求实验结束时;2. 每位学生均能够完成Hive的DDL操作;3. 能够在Hive中新建,显示,修改和删除表等功能。11.3 实验原理Hive没有专门的数据存储格式,...原创 2019-03-27 08:59:12 · 1036 阅读 · 0 评论 -
实验九 MapReduce实验:分布式缓存
9.1 实验目的理解序列化与反序列化;熟悉Configuration类;学会使用Configuration类进行参数传递;学会在Map或Reduce阶段引用Configuration传来的参数;理解分布式缓存“加载小表、扫描大表”的处理思想。9.2 实验要求假定现有一个大为100G的大表big.txt和一个大小为1M的小表small.txt,请基于MapReduce思想编程实现判断小表...原创 2019-03-22 23:36:13 · 871 阅读 · 1 评论 -
Hadoop教程2Hadoop伪集群环境安装
1 Hadoop伪分布式安装1.1 相关下载1、JDK下载地址:jdk-8u66-linux-x64.tar.gzLinux安装JDK及环境变量配置,参见:http://blog.csdn.net/yuan_xw/article/details/499482852、Hadoop下载:hadoop-2.7.1.tar.gz1.2 上传服务器1、下载完成...原创 2018-09-28 19:16:47 · 254 阅读 · 0 评论 -
MapReduce之Wordcount实现
最后附上源码:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWrita...原创 2018-10-22 20:13:40 · 1009 阅读 · 0 评论 -
HDFS实验二:部署HDFS/学习搭建HDFS
一、HDFS实验:部署HDFS指导2.1 实验目的1. 理解HDFS存在的原因;2. 理解HDFS体系架构;3. 理解master/slave架构;4. 理解为何配置文件里只需指定主服务、无需指定从服务;5. 理解为何需要客户端节点;6. 学会逐一启动HDFS和统一启动HDFS;7. 学会在HDFS中上传文件。2.2 实验要求要求实验结束时,已构建出以下H...原创 2019-03-11 20:24:43 · 3616 阅读 · 1 评论 -
实验三:HDFS实验&读写HDFS文件&学习使用Java读写HDFS文件
一、实验指导3.1 实验目的1. 会在Linux环境下编写读写HDFS文件的代码;2. 会使用jar命令打包代码;3. 会在master服务器上运行HDFS读写程序;4. 会在Windows上安装Eclipse Hadoop插件;5. 会在Eclipse环境编写读写HDFS文件的代码;6. 会使用Eclipse打包代码;7. 会使用Xftp工具将实验电脑上的文件上传...原创 2019-03-11 23:56:44 · 6685 阅读 · 0 评论 -
实验四 YARN实验:部署YARN集群
shiyab配置实验指导4.1 实验目的了解什么是YARN框架,如何搭建YARN分布式集群,并能够使用YARN集群提交一些简单的任务,理解YARN作为Hadoop生态中的资源管理器的意义。4.2 实验要求搭建YARN集群,并使用YARN集群提交简单的任务。观察任务提交的之后的YARN的执行过程。4.3 实验原理4.3.1 YARN概述YARN是一个资源管理、任务调度...原创 2019-03-17 21:43:00 · 1989 阅读 · 1 评论 -
实验五 MapReduce实验:单词计数
实验指导:5.1 实验目的基于MapReduce思想,编写WordCount程序。5.2 实验要求1.理解MapReduce编程思想;2.会编写MapReduce版本WordCount;3.会执行该程序;4.自行分析执行过程。5.3 实验原理MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(RED...原创 2019-03-18 17:39:30 · 7043 阅读 · 3 评论 -
实验十 Hive实验:部署Hive
实验指导:10.1 实验目的1. 理解Hive存在的原因;2. 理解Hive的工作原理;3. 理解Hive的体系架构;4. 并学会如何进行内嵌模式部署;5. 启动Hive,然后将元数据存储在HDFS上。10.2 实验要求1. 完成Hive的内嵌模式部署;2. 能够将Hive数据存储在HDFS上;3. 待Hive环境搭建好后,能够启动并执行一般命令。10....原创 2019-03-26 09:01:23 · 2690 阅读 · 0 评论 -
实验六 MapReduce实验:二次排序
实验指导:6.1 实验目的基于MapReduce思想,编写SecondarySort程序。6.2 实验要求要能理解MapReduce编程思想,会编写MapReduce版本二次排序程序,然后将其执行并分析执行过程。6.3 实验原理MR默认会对键进行排序,然而有的时候我们也有对值进行排序的需求。满足这种需求一是可以在reduce阶段排序收集过来的values,但是,如果有...原创 2019-03-19 12:30:29 · 2514 阅读 · 2 评论 -
实验七 MapReduce实验:计数器
实验指导:7.1 实验目的基于MapReduce思想,编写计数器程序。7.2 实验要求能够理解MapReduce编程思想,然后会编写MapReduce版本计数器程序,并能执行该程序和分析执行过程。7.3 实验背景7.3.1 MapReduce计数器是什么?计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进...原创 2019-03-22 20:03:08 · 1529 阅读 · 0 评论 -
HDFS基本命令
为了方便查看,整理部分基本HDFS命令HDFS基本命令格式如下:hadoop fs -cmd args其中,cmd为具体的操作,args为参数。部分HDFS命令示例如下:hadoop fs -mkdir /user/trunk #建立目录/user/trunkhadoop fs -ls /user #查看/user目录下的...原创 2019-03-22 20:06:30 · 797 阅读 · 0 评论 -
实验八 MapReduce实验:学习使用MapReduce进行Join操作
8.1 实验目的基于MapReduce思想,编写两文件Join操作的程序。8.2 实验要求能够理解MapReduce编程思想,然后会编写MapReduce版本Join程序,并能执行该程序和分析执行过程。8.3 实验背景8.3.1 概述对于RDBMS中的Join操作大伙一定非常熟悉,写SQL的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用M...原创 2019-03-22 21:21:39 · 1367 阅读 · 4 评论 -
Hadoop入门教程
1 Hadoop入门教程Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现存储,而MapReduce实现原理分析处理,这两部分是hadoop的核心。数据在Hadoop中处...转载 2018-09-28 19:12:39 · 7609 阅读 · 0 评论