xinxinzi_work-CSDN博客

在本次实战中，我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作，并将结果整合到一个文件中。在开始之前，确保成功启动Hadoop服务，以搭建分布式计算环境，为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件，并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。

2024-01-09 09:27:03 1111

原创 MR实战：词频统计

本实战演练旨在利用Hadoop MapReduce框架，在虚拟环境中执行一个简单的词频统计任务。在master节点上创建一个文本文件words.txt，其中包含多个单词行，并将该文件上传至HDFS中的指定目录/wordcount/input。在集成开发环境IntelliJ IDEA中创建一个名为MRWordCount的Maven项目，并引入Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。

2024-01-09 08:49:31 1004

原创 MR实战：统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据，我们将在Hadoop上进行以下步骤：启动服务，准备数据（创建score.txt文件并上传到HDFS的/calcscore/input目录）；实现MapReduce过程，包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类，以及设置作业的ScoreDriver类。在ScoreMapper中，我们将每行数据拆分为姓名和科目成绩的键值对。

2024-01-08 18:33:43 965

原创 MR实战：学生信息排序

在信息爆炸的时代，数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型，以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程，我们将通过一个具体的任务——学生信息排序，深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤，再到拓展练习，我们将一起领略MapReduce的强大魅力，揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先，启动Hadoop服务，创建目录和包含学生信息的文件，然后将其上传到HDFS的目录。接着，创建。

2024-01-08 16:51:22 889

追光的人，总会光芒万丈

原创 scrapy框架2

原创 scrapy框架

原创 Python数据分析

原创利用bs4爬取资料信息

原创正则表达式 - re模块

原创 requests入门

原创 Python爬虫入门

原创 MR实战：实现数据去重

原创 MR实战：词频统计

原创 MR实战：统计总分与平均分

原创 MR实战：学生信息排序

原创 MR实战：分科汇总求月考平均分

原创 Hive实战：分科汇总求月考平均分

原创 Hive实战：学生信息排序

原创 Hive实战：实现数据去重

原创 Hive实战：词频统计

原创 Hive实战：统计总分与平均分

空空如也

空空如也