大数据技术与原理
文章平均质量分 74
一些安装教程与错误报告
Z.Q.Feng
这个作者很懒,什么都没留下…
展开
-
实验7 Spark初级编程实践
1. Spark读取文件系统的数据2.编写独立应用程序实现数据去重对于两个输入文件A和B,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。3.编写独立应用程序实现求平均值问题每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。原创 2021-12-23 14:40:10 · 17309 阅读 · 19 评论 -
实验5 MapReduce初级编程实践(Python实现)
1. 编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,请编写 MapReduce 程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。2.编写程序实现对输入文件的排序现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中;输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。3. 对给定的表格进行信息挖掘下面给出一个child-parent的表格,要求挖掘其中的父子原创 2021-11-14 16:54:27 · 7203 阅读 · 9 评论 -
实验6 熟悉Hive的基本操作
一、实验目的(1)理解Hive作为数据仓库在Hadoop体系结构中的角色。(2)熟练使用常用的HiveQL。二、实验平台操作系统:Ubuntu18.04(或Ubuntu16.04)。Hadoop版本:3.1.3。Hive版本:3.1.2。JDK版本:1.8。三、数据集由《Hive编程指南》(O’Reilly系列,人民邮电出版社)提供,下载地址:https://raw.githubusercontent.com/oreillymedia/programming_hive/master/原创 2021-11-26 01:04:37 · 24381 阅读 · 20 评论 -
实验5 MapReduce初级编程实践(2)——编写程序实现对输入文件的排序
一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本:3.1.3三、实验内容编写程序实现对输入文件的排序现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第原创 2021-11-24 16:07:24 · 16097 阅读 · 27 评论 -
实验5 MapReduce初级编程实践(3)——对给定的表格进行信息挖掘
一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本:3.1.3三、实验内容对给定的表格进行信息挖掘下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。输入文件的内容如下:child parentSteven LucySteven Jack原创 2021-11-29 10:45:14 · 13289 阅读 · 25 评论 -
实验5 MapReduce初级编程实践(1)——编程实现文件合并和去重操作
一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本:3.1.3三、实验内容编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。输入文件A的样原创 2021-11-22 19:57:16 · 35586 阅读 · 70 评论 -
Ubuntu下为Spark安装配置sbt
文章目录一、下载sbt二、配置sbt三、使用sbt编译打包Scala程序四、总结一、下载sbt需要下载的文件名为 sbt-launch.jar,下载链接如下:https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar,点进去等一下就会弹出下载界面。二、配置sbt在 /usr/local/ 目录下创建 sbt 文件夹,并赋予 hadoop 用户相关权限:cd /us原创 2021-12-22 22:34:52 · 3680 阅读 · 1 评论 -
Hive虚拟内存溢出报错:2.9GB of 2.1GB virtual memory used. Killing container.解决办法
具体报错如下:Container [pid=...,containerID=...] is running ...B beyond the 'VIRTUAL' memory limit. Current usage: 247.6 MB of 1GB physical memory used; 2.9GB of 2.1GB virtual memory used. Killing container.原创 2021-12-13 11:13:28 · 3887 阅读 · 0 评论 -
Hive插入数据拒绝连接:ERROR exec.Task: Job Submission failed ... From master/192.168.70.128 to master:8032
具体报错如下:ERROR exec.Task: Job Submission failed with exception java.net.ConnectException(Call From master/192.168.70.128 to master:8032 failed on connection exception: java.net.ConnectException: Connection refuced; For more details see: http://wiki.apache...原创 2021-12-13 10:26:58 · 1993 阅读 · 2 评论 -
Ubuntu下安装Spark3.2.0教程
文章目录前言一、安装Spark1. 下载压缩包并解压2. 安装Spark3. 配置环境变量4. 修改配置文件二、验证Spark安装及错误处理1. 运行Spark实例2. 启动Spark shell三、总结前言Spark 的安装需要建立在 Hadoop 的之上(类似于 Hbase 和 Hive),关于 Hadoop 的单机安装以及伪分布式安装可以参考作者的另两篇博客:Ubuntu下单机安装Hadoop详细教程(附所需安装包下载)Ubuntu下伪分布式安装Hadoop详细教程本文安装的 Hado原创 2021-12-10 00:52:33 · 8487 阅读 · 2 评论 -
Spark启动:WARN util.Utils: Your hostname, ... resolves to a loopback address: ...; using ... instead
完整警告输出如下:2021-12-09 23:49:14,625 WARN util.Utils: Your hostname, fzqs-Laptop resolves to a loopback address: 127.0.1.1; using 10.132.13.98 instead (on interface wlo1)原创 2021-12-10 00:23:33 · 5752 阅读 · 8 评论 -
Hive基本操作
文章目录前言一、 create:创建数据库、表、视图1. 创建数据库2. 创建表3. 创建视图二、drop:删除数据库、表、视图1. 删除数据库2. 删除表3. 删除视图三、alter:修改数据库、表、视图1. 修改数据库2. 修改表3. 修改视图四、show:查看数据库、表、视图1. 查看数据库2. 查看表和视图五、describe:描述数据库、表、视图1. 描述数据库2. 描述表和视图六、load:向表中装载数据七、select:查询表中数据1. 查询记录2. 查询不重复的记录3. 排序和限制八、ins原创 2021-11-23 22:16:19 · 2143 阅读 · 0 评论 -
Ubuntu下安装Hive3.1.2教程(附MySQL安装方法及安装包)
文章目录前言一、安装Hive1. 下载压缩包并解压2. 安装Hive3. 配置环境变量4. 修改配置文件二、MySQL安装与配置1. 安装MySQL2. 安装MySQL jdbc包3. 为Hive创建MySQL账号三、验证Hive安装及错误处理1. 启动Hadoop2. 启动hive3. 运行Hive实例总结前言Hive 的安装需要建立在 Hadoop 的之上(类似于Hbase),关于 Hadoop 的单机安装以及伪分布式安装可以参考作者的另两篇博客:Ubuntu下单机安装Hadoop详细教程(附原创 2021-11-23 00:39:55 · 13969 阅读 · 29 评论 -
Hive启动报错:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument
文章目录项目场景:问题描述:原因分析:解决方案:项目场景:系统:Ubuntu20.04Hadoop版本:Hadoop3.3.1Hbase版本:Hive3.1.2问题描述:在启动 Hive 时,出现如下输出:hadoop@fzqs-Laptop:/usr/local/hive/lib$ hive -versionException in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditio原创 2021-11-21 23:27:01 · 3944 阅读 · 7 评论 -
SLF4J: Class path contains multiple SLF4J bindings.——Hive启动输出
文章目录项目场景:问题描述:原因分析:解决方案:项目场景:系统:Ubuntu20.04Hadoop版本:Hadoop3.3.1Hbase版本:Hive3.1.2问题描述:在启动 Hive 时,出现如下输出:hadoop@fzqs-Laptop:/usr/local/hive/lib$ hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/local/hi原创 2021-11-21 19:02:33 · 3238 阅读 · 1 评论 -
MapReduce编程实践——WordCount运行实例(Python实现)
首先我们在本地创建两个文件,即文件A和B。对于两个输入文件,即文件A和文件B,请编写 MapReduce 程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例,以供参考。文件A的内容如下:China is my motherlandI love China文件B的内容如下:I am from China根据输入文件A和B合并得到的程序应该输出如下形式的结果:I 2is 1China 3my 1love 1am 1原创 2021-11-17 14:55:05 · 6000 阅读 · 1 评论 -
错误: 找不到或无法加载主类(invalid variable name) org.apache.hadoop.hbase.util.GetJavaProperty——Hbase报错
文章目录项目场景:问题描述:原因分析:解决方案:项目场景:系统:Ubuntu20.04Hadoop版本:Hadoop3.3.1Hbase版本:Hbase2.2.2问题描述:在启动 Hbase 时,或者查看 Hbase version 时,出现如下报错:/usr/local/hadoop/libexec/hadoop-functions.sh: line 2366:HADOOP_ORG.APACHE.HADOOP.HBASE.UTIL.GETJAVAPROPERTY_USER: inva原创 2021-11-01 19:57:18 · 7713 阅读 · 23 评论 -
for usage try ‘help “create“‘——Hbase使用shell无法创建表格解决办法
具体报错如下:hbase(main):001:0> create 'a', 'b'TABLE ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at原创 2021-11-01 14:45:14 · 3624 阅读 · 0 评论 -
Hbase使用shell命令出现报错:PleaseHoldException: Master is initializing 解决办法
文章目录项目场景:问题描述:原因分析:解决方案:项目场景:Ubuntu20.04Hadoop3.2.2Hbase2.2.2问题描述:在启动 Hbase shell 后,使用 create, list 等命令时,出现如下报错:hbase(main):001:0> listTABLE原创 2021-10-29 10:45:10 · 9307 阅读 · 41 评论 -
Ubuntu下伪分布式安装Hadoop详细教程
目录前言一、修改配置文件1. 配置 .bashrc 文件2. 配置伪分布式二、初始化文件系统三、验证安装1. 启动HDFS2. 部分报错总结前言Hadoop 的伪分布式安装需要建立在 Hadoop 的单机安装之上,关于 Hadoop 的单机安装可以参考作者的另一篇博客:Ubuntu下单机安装Hadoop详细教程(附所需安装包下载)本文安装的 Hadoop 及 Java 环境基于林子雨老师的《大数据技术原理与应用(第3版)》中...原创 2021-09-29 22:31:55 · 5928 阅读 · 5 评论 -
SLF4J: Class path contains multiple SLF4J bindings.——Hbase启动输出
文章目录项目场景:问题描述:原因分析:解决方案:项目场景:系统:Ubuntu20.04Hadoop版本:Hadoop3.3.1Hbase版本:Hbase2.2.2问题描述:在启动 Hbase 时,或者查看 Hbase version 和使用 shell 时,出现如下输出:hadoop@fzqs-Laptop:/usr/local/hbase$ bin/hbase shellSLF4J: Class path contains multiple SLF4J bindings. SLF4原创 2021-11-01 20:34:15 · 1593 阅读 · 0 评论 -
Ubuntu下伪分布式安装Hadoop启动后jps无NameNode等输出解决办法
文章目录项目场景问题描述原因分析解决方案1. 配置文件出错2. 当前用户对 Hadoop 目录的操作权限不够3. Hadoop 启动时 tmp 目录初始化出错总结项目场景系统:Ubuntu20.04(也适用于低版本以及虚拟机)Hadoop版本:hadoop3.2.2(同理适用于其他版本)Hadoop安装方式:伪分布式问题描述在 /usr/lcoal/hadoop 目录下,使用 ./sbin/start-dfs.sh 命令启动 Hadoop 后,使用 jps 命令无 NameNode、Da原创 2021-10-26 11:19:58 · 6082 阅读 · 2 评论 -
Ubuntu下为Hadoop安装配置Hbase教程
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?下载地址:http://archive.apache.org/dist/hbase/https://mirrors.t原创 2021-10-23 19:06:40 · 4905 阅读 · 3 评论 -
Ubuntu下单机安装Hadoop详细教程(附所需安装包下载)
目录前言一、创建Hadoop用户二、更新apt和安装Vim编辑器三、安装SSH和配置SSH无密码登录四、安装Java环境1. 安装JDK2. 配置JDK环境3. 检验安装五、安装单机Hadoop1. 下载安装Hadoop2. 运行示例总结前言本文安装的 Hadoop 及 Java 环境基于林子雨老师的《大数据技术原理与应用(第3版)》中所要求,其中Java 版本为1.8.0_301,Hadoop 版本为3.3.1,其他版本的安装请参考其他博客。..原创 2021-09-22 13:01:58 · 37885 阅读 · 83 评论