自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Hive实战:网址去重

本实战项目主要利用Hive对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的目录作为原始数据。接着在hive中创建相对应的数据表ips,并将HDFS中三个文本文件内容导入到数据表ips中最后通过查询实现去重。

2024-01-09 10:25:29 391

原创 MR实战:网址去重

本实战项目主要利用框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过创建了一个Maven项目,并添加了和junit相关依赖。和。类作为Map阶段的处理单元,读取每行输入文本数据(表示一个IP地址),将IP地址作为新的键输出,并使用类型的空值,以准备后续去重操作。类则负责Reduce阶段的逻辑,它接收。

2024-01-09 09:37:33 749

原创 MR实战:统计总分与平均分

求成绩总分和平均分、将数据上传到hdfs

2024-01-08 11:24:09 1166

原创 Hive实战:分科汇总求月考平均分

上传数据到hdfs、从hdfs加载数据到hive

2024-01-08 10:18:50 1336

原创 hive实战:词频统计

词频统计、hive文件上传到hdfs、hive导入外部数据

2024-01-08 09:20:53 1115

原创 HBase分布式安装

hbase分布式安装,环境搭建,节点文件分发

2024-01-05 21:10:03 478 1

原创 MR实战学生信息排序

数据上传到hdfs,数据排序

2024-01-03 17:59:48 779 1

原创 Hive实战:成绩汇总

hive文件上传到hdfs,hive统计成绩求和,统计平均值

2024-01-03 11:10:48 348 1

原创 Zookeeper配置

zookeeper配置、myid配置

2023-12-10 15:23:15 766 1

原创 mysql配置安装8.2.0

mysql配置安装、MySQL初始化、修改MySQL密码、配置MySQL环境变量

2023-12-08 09:44:09 881

原创 Hadoop完全分布式搭建

关闭防火墙、修改主机名称、hadoop安装配置、hdfs配置、core配置、yarn配置、jdk配置、设置免密登录、hadoop完全分布式搭建

2023-12-02 14:32:04 947

原创 finalshell连接VMware虚拟机linux

finalshell连接VMware虚拟机linux、VMware虚拟机克隆,finals hell 配置ip、CentOS-7

2023-11-26 17:58:06 1383

原创 CSDN基础操作

csdn博客常用基本操作

2023-11-19 22:05:59 3132 2

原创 Spark中over partition窗口函数(开窗函数)

spark数据开窗函数、rank、row_number、dense_rank排序函数、lead、lag、取指定行某一字段值、分区范围、开窗方法

2023-11-05 13:37:58 707 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除