- 博客(14)
- 收藏
- 关注
原创 Hive实战:网址去重
本实战项目主要利用Hive对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的目录作为原始数据。接着在hive中创建相对应的数据表ips,并将HDFS中三个文本文件内容导入到数据表ips中最后通过查询实现去重。
2024-01-09 10:25:29 391
原创 MR实战:网址去重
本实战项目主要利用框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过创建了一个Maven项目,并添加了和junit相关依赖。和。类作为Map阶段的处理单元,读取每行输入文本数据(表示一个IP地址),将IP地址作为新的键输出,并使用类型的空值,以准备后续去重操作。类则负责Reduce阶段的逻辑,它接收。
2024-01-09 09:37:33 749
原创 Hadoop完全分布式搭建
关闭防火墙、修改主机名称、hadoop安装配置、hdfs配置、core配置、yarn配置、jdk配置、设置免密登录、hadoop完全分布式搭建
2023-12-02 14:32:04 947
原创 finalshell连接VMware虚拟机linux
finalshell连接VMware虚拟机linux、VMware虚拟机克隆,finals hell 配置ip、CentOS-7
2023-11-26 17:58:06 1383
原创 Spark中over partition窗口函数(开窗函数)
spark数据开窗函数、rank、row_number、dense_rank排序函数、lead、lag、取指定行某一字段值、分区范围、开窗方法
2023-11-05 13:37:58 707 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人