spark实现kafka流数据的操作

最新推荐文章于 2025-04-03 10:45:00 发布

向往自由的金鱼姬

最新推荐文章于 2025-04-03 10:45:00 发布

阅读量288

点赞数

分类专栏： spark编程基础文章标签： kafka 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65123909/article/details/134292996

版权

spark编程基础专栏收录该内容

6 篇文章

订阅专栏

本次目标：

kafka的安装和配置

kafka测试

spark读取kafka数据

一、Kafka的安装和配置

上传：kafka_2.11-2.41.tgz

将上传的文件放在/opt/apps下解压并改名为kafka （注：一般改名是包名+版本，便于区分）

备份kafka目录下的config目录下的server.properties （安全起见，也可以不备份）

编辑server.properties添加 listener地址、zookeeper地址、logs目录

二、Kafka测试 (因为并没有添加环境变量，所以最保险的办法是切换到/opt/apps/kafka/开启进程，分别在4个终端中运行，每个进程都不能中断）

终端1：启动zookeeper

终端2：启动kafka服务

终端3：创建kafka主题，并开启主题写入数据

终端4：kafka的测试

三、Spark读取kafka数据

上传图中两个文件到spark/jars/kafka/下

修改spark/conf/spark-env.sh 在$SPARK_DIST_CLASSPATH变量中加入

在vm虚拟机打开code,编译程序，其中使用的主题是bigdata3 （亦可以再创建一个）

图中的线程必须要有2个以上才可以运行，AppName不指定

执行程序

出现错误：Exception in thread “streaming-start”java.lang.NoClassDefFoundError:org/apache/spark/internal/Logging$class

提示没有这个类，原因是spark-core 的版本问题，才会出现兼容，以上安装的时候用的是 spark-core_2.11-2.4.1.jar，这里需要更换这个包

解决方法：

下载spark-core_2.11-2.4.7.jar，并将该文件拷贝到spark/jars/kafka/

在终端3中写入数据

就可以看到流输出

若拷贝后还是会出现错误，可以试试加上spark-core版本运行，原因是kafka目录下存在着两个不同版本的spark-core。（提醒：不能将低版本的删除，否则会出错）

执行语句：spark-submit --jars spark-core_2.11-2.4.7.jar spark_streaming_kafka.py

向往自由的金鱼姬

博客等级

码龄3年

24
原创

121
点赞

176
收藏

99
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

关于Oracle数据库闪回技术
CSDN-Ada助手: 非常高兴看到你的第19篇博客，题为“关于Oracle数据库闪回技术”。恭喜你不断地探索和分享关于Oracle数据库的知识。闪回技术作为数据库恢复和故障排除的重要工具，在实际应用中具有重要意义。我希望你在博客中能够更深入地探讨Oracle数据库闪回技术的原理和应用场景，比如具体的实施步骤、常见问题的解决方案等。这样可以帮助读者更好地理解和应用这一技术。同时，你也可以考虑拓展一些相关主题，比如与其他数据库恢复技术的比较，或是与闪回技术相辅相成的数据库备份策略等。这样可以为读者提供更全面的数据库管理知识。继续保持创作的热情，相信你的博客会吸引更多对Oracle数据库感兴趣的读者。谦虚地说，我期待着你未来更多有关Oracle数据库的精彩分享。
关于Matplotlib数据可视化基础
CSDN-Ada助手: 恭喜您发布了这篇关于Matplotlib数据可视化基础的博客！您的文章通俗易懂，让我对Matplotlib有了更深入的了解。希望您能继续分享更多关于数据可视化的知识，也可以考虑结合其他数据可视化工具或者实际案例进行更深入的探讨。期待您的下一篇作品！祝您创作顺利！
数据库用户管理
CSDN-Ada助手: 恭喜您撰写了第16篇关于数据库用户管理的博客！您的文章内容丰富，对数据库用户管理有着深入的理解和独特的见解。希望您能继续保持创作的热情和动力，为读者带来更多有价值的内容。下一步，或许可以考虑分享一些实际案例或者操作经验，让读者更加深入地了解数据库用户管理的实际操作技巧。期待您的更多精彩内容！
在虚拟机里怎么安装Hive？Hive与SQL的交互应用
CSDN-Ada助手: 恭喜你写了第15篇博客！看了你的文章，对在虚拟机里安装Hive和Hive与SQL的交互应用有了更深入的了解。不过我觉得你可以尝试写一些关于Hive的高级应用或者与其他大数据工具的整合应用，这样可以让读者有更多的学习内容。期待你的下一篇文章！谢谢你的分享和努力！
表空间的管理
CSDN-Ada助手: 恭喜用户写了第9篇博客！标题为“表空间的管理”，这是一个非常有价值的主题。通过深入了解和掌握表空间的管理，您为读者提供了宝贵的知识和指导。我非常期待您下一篇博客的发布，希望您能继续分享有关数据库管理的经验和技巧。也许您可以考虑探讨一些高级的表空间管理技术，或者分享一些实际案例以帮助读者更好地应用这些概念。谦虚地说，我相信您的下一篇博客将会再次带给读者们更多的启发和收获！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。