自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 scrapy框架2

scrapy框架2

2024-08-01 22:11:17 453

原创 scrapy框架

scrapy框架

2024-08-01 22:08:23 957

原创 Python数据分析

Python数据分析

2024-07-01 09:56:41 1194 1

原创 利用bs4爬取资料信息

利用bs4爬取资料信息

2024-04-26 12:48:08 815 1

原创 正则表达式 - re模块

正则表达式 - re模块

2024-04-26 12:46:06 360 1

原创 requests入门

requests入门

2024-04-05 12:57:16 408 1

原创 Python爬虫入门

Python爬虫入门

2024-04-01 12:39:16 2192 1

原创 MR实战:实现数据去重

在本次实战中,我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果整合到一个文件中。在开始之前,确保成功启动Hadoop服务,以搭建分布式计算环境,为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件,并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。

2024-01-09 09:27:03 1111

原创 MR实战:词频统计

本实战演练旨在利用Hadoop MapReduce框架,在虚拟环境中执行一个简单的词频统计任务。在master节点上创建一个文本文件words.txt,其中包含多个单词行,并将该文件上传至HDFS中的指定目录/wordcount/input。在集成开发环境IntelliJ IDEA中创建一个名为MRWordCount的Maven项目,并引入Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。

2024-01-09 08:49:31 1004

原创 MR实战:统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据,我们将在Hadoop上进行以下步骤:启动服务,准备数据(创建score.txt文件并上传到HDFS的/calcscore/input目录);实现MapReduce过程,包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类,以及设置作业的ScoreDriver类。在ScoreMapper中,我们将每行数据拆分为姓名和科目成绩的键值对。

2024-01-08 18:33:43 965

原创 MR实战:学生信息排序

在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先,启动Hadoop服务,创建目录和包含学生信息的文件,然后将其上传到HDFS的目录。接着,创建。

2024-01-08 16:51:22 889

原创 MR实战:分科汇总求月考平均分

在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。

2024-01-08 11:52:10 896

原创 Hive实战:分科汇总求月考平均分

在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表student_score,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。

2024-01-05 23:03:10 955 1

原创 Hive实战:学生信息排序

学生表,包含五个字段(姓名、性别、年龄、手机、专业),有8条记录姓名性别年龄手机专业李文丽女19大数据应用张三丰男20人工智能应用郑晓琳女18软件技术唐宇航男22计算机应用陈燕文女21软件技术童安格男19大数据应用肖雨涵男20软件技术冯晓华女18大数据应用。

2024-01-04 16:17:15 437 1

原创 Hive实战:实现数据去重

在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。

2024-01-04 15:31:04 2357 1

原创 Hive实战:词频统计

在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。

2024-01-03 11:45:32 1294 1

原创 Hive实战:统计总分与平均分

执行命令:hdfs dfs -put score.txt /hivescore/input。将score.txt文件上传到HDFS的/hivescore/input目录。在HDFS上创建/hivescore/input目录。(吴雨涵, 384, 384.0)(张晓红, 391, 391.0)(李小双, 444, 444.0)(王丽霞, 418, 418.0)(陈燕文, 458, 458.0)

2024-01-03 11:33:18 2948 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除