自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 利用bs4爬取资料信息

利用bs4爬取资料信息

2024-04-26 12:48:08 577 1

原创 正则表达式 - re模块

正则表达式 - re模块

2024-04-26 12:46:06 237 1

原创 requests入门

requests入门

2024-04-05 12:57:16 308 1

原创 Python爬虫入门

Python爬虫入门

2024-04-01 12:39:16 1145

原创 MR实战:实现数据去重

在本次实战中,我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果整合到一个文件中。在开始之前,确保成功启动Hadoop服务,以搭建分布式计算环境,为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件,并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。

2024-01-09 09:27:03 895

原创 MR实战:词频统计

本实战演练旨在利用Hadoop MapReduce框架,在虚拟环境中执行一个简单的词频统计任务。在master节点上创建一个文本文件words.txt,其中包含多个单词行,并将该文件上传至HDFS中的指定目录/wordcount/input。在集成开发环境IntelliJ IDEA中创建一个名为MRWordCount的Maven项目,并引入Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。

2024-01-09 08:49:31 823

原创 MR实战:统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据,我们将在Hadoop上进行以下步骤:启动服务,准备数据(创建score.txt文件并上传到HDFS的/calcscore/input目录);实现MapReduce过程,包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类,以及设置作业的ScoreDriver类。在ScoreMapper中,我们将每行数据拆分为姓名和科目成绩的键值对。

2024-01-08 18:33:43 864

原创 MR实战:学生信息排序

在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先,启动Hadoop服务,创建目录和包含学生信息的文件,然后将其上传到HDFS的目录。接着,创建。

2024-01-08 16:51:22 779

原创 MR实战:分科汇总求月考平均分

在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。

2024-01-08 11:52:10 784

原创 Hive实战:分科汇总求月考平均分

在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表student_score,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。

2024-01-05 23:03:10 796 1

原创 Hive实战:学生信息排序

学生表,包含五个字段(姓名、性别、年龄、手机、专业),有8条记录姓名性别年龄手机专业李文丽女19大数据应用张三丰男20人工智能应用郑晓琳女18软件技术唐宇航男22计算机应用陈燕文女21软件技术童安格男19大数据应用肖雨涵男20软件技术冯晓华女18大数据应用。

2024-01-04 16:17:15 331 1

原创 Hive实战:实现数据去重

在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。

2024-01-04 15:31:04 1044 1

原创 Hive实战:词频统计

在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。

2024-01-03 11:45:32 933

原创 Hive实战:统计总分与平均分

执行命令:hdfs dfs -put score.txt /hivescore/input。将score.txt文件上传到HDFS的/hivescore/input目录。在HDFS上创建/hivescore/input目录。(吴雨涵, 384, 384.0)(张晓红, 391, 391.0)(李小双, 444, 444.0)(王丽霞, 418, 418.0)(陈燕文, 458, 458.0)

2024-01-03 11:33:18 1143

原创 新学期的第一次课的感受

第一次课的感受参加第一次课程后,我有以下几点感受:(一)开阔了视野(二)实践操作的重要性(三)合作的重要性对老师的小小建议:(一)语速有些快了(二)课程中途留给我们的消化时间有点点短参加第一次课程后,我有以下几点感受:(一)开阔了视野对数据更深入的理解,拓展了我的知识视野。(二)实践操作的重要性实践操作不仅让我更好地理解了理论知识,还培养了我的实际操作能力,提高了解决问题的能力。(三)合作的重要性在第一次课程中,我有机会与其他同学进行讨论和合作。通过交流和合作,互相学习和借鉴。培养了

2023-09-05 22:17:57 31 1

原创 新学期第一篇博客

文章目录一、加入QQ群(一)QQ群号(二)加群要求二、加入云班课三、使用思维导图(一)下载XMind软件(二)安装 XMind软件(三)创建思维导图1、选择模版 (template)2、选择风格(Style)3、操作节点4、实战 - 自我介绍一、加入QQ群(一)QQ群号2022数据2班数据清洗和预处理 - QQ群号:2815645614(二)加群要求必须是大数据学院修改群名片,使用实名二、加入云班课手机上下载安装云班课2022数据1班数据清洗和预处理班课号:3715996

2023-09-05 16:15:35 32

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除