Hive实战：实现数据去重

0806820

于 2024-01-04 15:37:16 发布

阅读量1k

点赞数 23

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74836617/article/details/135387371

版权

文章目录

一、实战概述
二、提出任务
三、完成任务

一、实战概述

在本次实战任务中，我们利用Hive处理大数据场景，针对三个文本文件中的IP地址数据进行整合与去重。
首先将文本文件上传至HDFS的指定目录作为输入源，随后通过启动Hive服务搭建元数据管理环境。创建了外部表unique_ips以加载并列存储文本数据中的IP地址，每行一个IP且用换行符分隔。
为达到去重目的，进一步创建内部表deduplicated_ips，并运用DISTINCT关键词从unique_ips中筛选出不重复IP记录。
最后，通过查询deduplicated_ips表验证去重结果的有效性。整个过程展示了Hive高效的数据加载能力、灵活的表结构定义方法以及对大规模文本数据清洗和去重的实用功能，体现了其在大数据处理领域的优越性和易用性。

二、提出任务

ips01.txt

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.1
172.16.0.1
10.0.0.3

ips02.txt

192.168.1.4
172.16.0.3
10.0.0.4
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.1
172.16.0.1 
10.0.0.1

ips03.txt

192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5
192.168.1.1
172.16.0.1
10.0.0.3

目标是将这三个文本文件中的IP地址整合并去除重复项，最终得到一个仅包含唯一IP地址的结果集。

192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.4
172.16.0.3
10.0.0.3
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5

三、完成任务

（一）准备数据

1、在虚拟机上创建文本文件

在master虚拟机上使用文本编辑器创建三个文件：ips01.txt, ips02.txt, ips03.txt，并确保每个文件内存储的是纯文本格式的IP地址列表。

2、上传文件到HDFS指定目

在master虚拟机上创建HDFS上的/deduplicate/input目录，用于存放待处理的原始数据文件。
创建目录： hdfs dfs -mkdir -p /deduplicate/input
上传文件：

hdfs dfs -put ips01.txt /deduplicate/input/
hdfs dfs -put ips02.txt /deduplicate/input/
hdfs dfs -put ips03.txt /deduplicate/input/

（二）实现步骤

1、启动Hive Metastore服务

启动Hive Metastore服务，确保Hive可以正确管理和访问元数据信息
hive --service metastore &

2、启动Hive客户端

打开Hive客户端连接到Hive服务

3、基于HDFS数据文件创建Hive外部表

基于HDFS数据文件创建Hive外部表，执行语句:

CREATE EXTERNAL TABLE unique_ips (ip STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n'
LOCATION '/deduplicate/input';

在这里插入图片描述

这里创建了一个名为unique_ips的外部表，字段为单列ip，每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行，所以字段间用换行符\n分隔。

4、利用Hive SQL实现去重

在Hive内部创建了一个新的表deduplicated_ips，其中存储了从unique_ips表中提取的所有不重复的IP地址。

CREATE TABLE deduplicated_ips AS
SELECT DISTINCT ip FROM unique_ips;

在这里插入图片描述

5、检查是否实现去重

最后，检查deduplicated_ips表的内容以确认去重是否成功执行

SELECT * FROM deduplicated_ips;

在这里插入图片描述

若输出结果中没有重复的IP地址，则说明去重任务已经顺利完成。
通过以上步骤，我们成功地利用Hive框架完成了对多个文本文件中的IP地址进行去重的任务，展示了Hive在大数据处理中的强大能力和便捷性。

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

0806820 CSDN认证博客专家 CSDN认证企业博客

码龄2年

12: 原创

134万+: 周排名

25万+: 总排名

1万+: 访问

: 等级

359: 积分

168: 粉丝

238: 获赞

2: 评论

241: 收藏

私信

关注

热门文章

最新评论

Hive实战：词频统计
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题《Hive实战：词频统计》听起来非常有趣。我很高兴看到您在持续创作，并分享关于Hive的实践经验。您的博客内容一直都很有深度和实用性，对读者来说是个宝藏。鉴于您在Hive领域的专业知识和经验，我想向您提出一个创作建议。或许您可以探索一下如何使用Hive进行文本情感分析，这是一个非常有意义且广泛应用的领域。了解如何利用Hive来分析文本中的情感倾向，可以帮助读者更好地理解和应用情感分析技术。再次恭喜您的持续创作，期待阅读更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Hive实战：实现数据去重
CSDN-Ada助手: 恭喜作者在Hive实战中取得了新的成就，实现了数据去重功能。不断分享实战经验对大家学习非常有帮助，同时也感谢作者的付出和分享。希望作者在以后的创作中能够继续保持热情，不断挑战自我，可以尝试分享一些实际案例和解决方案，让读者更好地理解和应用所学知识。期待作者更多精彩的文章，共同学习进步。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Hive实战：学生信息排序
CSDN-Ada助手: 非常恭喜您写了第5篇博客！标题“Hive实战：学生信息排序”听起来非常有趣。您在这篇博客中分享了有关Hive实战的经验，让读者能够了解如何在学生信息排序方面应用Hive。我非常期待阅读这篇博客，并从中学到更多有关Hive的知识。同时，我也想提供一些建议，以便您在下一步的创作中继续不断进步。考虑到您的专业知识和经验，也许可以在博客中引入一些实际的案例，展示Hive在学生信息排序中的真实应用场景。此外，您还可以探讨一些与Hive相关的最佳实践和技巧，以帮助读者更好地理解和应用这些概念。再次恭喜您的连续创作，并期待您未来更多精彩的博客！请继续保持谦逊和努力，您的分享对读者来说无疑是一份宝贵的学习资源。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。