大数据BigData
文章平均质量分 95
大数据存储技术~
是瑶瑶子啦
商务合作&学习交流:Yao2024yaO
展开
-
【Hadoop】知识点总结、大学期末复习
Map:每次对一行数据进行操作Reduce:对具有同一个key的所有k-v进行操作单选和多选略,已上传到资源。原创 2024-08-22 11:13:25 · 819 阅读 · 0 评论 -
【大数据·hadoop】项目实践:IDEA实现WordCount词频统计项目
我们知道,在hdfs分布式系统中,MapReduce这部分程序是需要用户自己开发,我们在ubuntu上安装idea也是为了开发wordcount所需的Map和Reduce程序,最后打包,上传到hdfs上。在ubuntu上安装idea的教程我参考的是这篇。原创 2024-06-11 20:12:19 · 1533 阅读 · 1 评论 -
【大数据·hadoop】在hdfs上运行shell基本常用命令
在Hadoop生态系统中,supergroup 是一个默认的用户组,通常与HDFS的超级用户(即 Hadoop 的管理员账户,类似于 Unix 系统中的 root 用户)关联。超级用户和属于 supergroup 组的用户通常有着对HDFS上所有文件和目录的全权限,这包括读取、写入和执行权限。原创 2024-05-11 17:09:39 · 3129 阅读 · 1 评论 -
【已解决】伪分布式Hadoop服务已经开启,但是无法访问http://localhost:9870(缺少NameNode进程)\http://localhost:8088
使用如下方法启动成功hadoop服务进入相应文件夹首先停止启动所有的节点,使用命令行启动stop-all.sh脚本使用jps命令查看当前hadoop运行貌似没问题其实这里就是有问题!!!后续解决方法里面说继续打开,查看web界面显示无法连接到。原创 2024-03-30 11:15:44 · 3563 阅读 · 0 评论 -
Hadoop在ubuntu虚拟机上的伪分布式部署|保姆级教程
2.经后续测试发现问题,虽然已经为ubuntu系统设置了java的环境变量,但hadoop实际运行时仍会出现找不到java-jdk的现象,故再对hadoop的环境文件进行修改,此外,该文件还包括启动参数、日志、pid文件目录等信息。Hadoop和与之相关的很多工具都是通过java语言编写的,并且很多基于hadoop的应用开发也是使用java语言的,但是ubuntu系统不会默认安装java环境,所以需要安装java并配置环境变量。少了就说明上面的启动命令肯定没有完全运行成功,哪个少了就去google一下!原创 2024-03-30 14:14:12 · 2197 阅读 · 1 评论 -
【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理
MapReduce的算法核心思想是:分治学过算法的同学应该会学到分治算法,所谓分治,就是把原问题分解为规模更小的问题,进行处理,最后将这些子问题的结果合并,就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是:分治。上图是MapReduce的处理流程图,可以看到,MapReduce的整个过程主要分为:输入:来自存储在hdfs上的文件block进行分块(split)后,并且进行读取数据处理的分块数据的键值对(key-value)形式。原创 2024-05-11 19:27:04 · 2215 阅读 · 3 评论