Hadoop
文章平均质量分 63
hadoop3.2.2 学习记录
榆钱不知秋
请多喝水
展开
-
mapreduce实现多表关联
前面的基本操作参考同专栏其他文章1.import java.io.IOException;2.import java.util.*; 3.import org.apache.hadoop.conf.Configuration; 4.import org.apache.hadoop.fs.Path; 5.import org.apache.hadoop.io.Text; 6.import org.apache.hadoop.fs.FileSystem;7.import org.apache..原创 2022-06-04 20:43:13 · 383 阅读 · 0 评论 -
Hadoop3.2.2实现倒排索引
本文是使用MapReduce并行分布式计算框架进行编程,实现倒排索引建立;1.倒排索引的介绍“倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。2.样例输入如下1)file1MapReduce is simple2)file2MapReduce is p原创 2022-05-08 20:51:25 · 1942 阅读 · 0 评论 -
使用Hadoop以及Eclipse平台,创建Hadoop项目——编写简单MapReduce程序,运行MapReduce词频统计程序,查看词频统计程序的结果。
打开eclipse平台在eclipse中创建项目点击finish。为项目添加需要用到的JAR包(1)“/opt/module/hadoop-3.2.2/share/hadoop/common/”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar;(2)“ /opt/module/hadoop-3.2.2/share/hadoop/common/lib”目录下的所有JAR包;(3)“/opt/module/hadoop-3.2.2/share/原创 2022-04-29 21:40:43 · 6257 阅读 · 0 评论 -
CentOS安装Eclipse,Eclipse启动时报错
出现的3个错误1.出现弹窗:2.出现警告:Java HotSpot™ 64-Bit Server VM warning: ignoring option MaxPermSize=256m;3.以及报错Eclipse: 无法打开显示:CentOS安装Eclipse,参考链接:https://blog.csdn.net/sinat_40875078/article/details/1090453871.解决弹窗打开xshell属性的窗口,修改如下:2.解除警告这里使用xshell连接了原创 2022-04-22 11:27:58 · 3308 阅读 · 0 评论 -
Hadoop的环境配置——搭建一个主机hadoop102,两个从机hadoop103,hadoop104,并运行分布式词频统计
本文是跟着B站上的视频实现的,链接如下:https://www.bilibili.com/video/BV1Qp4y1n7EN?p=18Hadoop运行环境搭建1.安装VMware,文章末尾有链接,没什么需要注意的,也可以跟着视频安装2.CentOS ,文章末尾有链接,从这里开始跟着视频3.VMware的配置1.打开虚拟网络编辑器:2.链接:VMware:https://pan.baidu.com/s/15FI9O59jyEr2PeLNsy-Jkg提取码:2933CentOS:原创 2022-04-18 20:11:49 · 4145 阅读 · 0 评论