Spark操作外部数据源之Mysql数据源

最新推荐文章于 2022-09-09 15:02:49 发布

大数据老人家i

最新推荐文章于 2022-09-09 15:02:49 发布

阅读量251

点赞数

分类专栏： Scala 文章标签： spark jdbc mysql 大数据

本文链接：https://blog.csdn.net/zh2475855601/article/details/116105323

版权

该博客展示了如何使用Spark的RDD接口将处理后的词频统计结果保存到MySQL数据库中，通过减少RDD分区和批量插入提升性能。示例中详细说明了如何建立数据库表结构，以及如何使用`foreachPartition`配合`saveToMySQL`方法实现数据插入。

摘要由CSDN通过智能技术生成

将RDD中数据写入到Mysql中

实际开发中常常将分析结果RDD保存至MySQL表中，使用foreachPartition函数；此外Spark中提供JdbcRDD用于从MySQL表中读取数据。

调用RDD#foreachPartition函数将每个分区数据保存至MySQL表中，保存时考虑降低RDD分区数目和批量插入，提升程序性能。

范例演示：将词频统计WordCount结果保存MySQL表tb_wordcount。

建表

USE db_test ;
CREATE TABLE `tb_wordcount` (
`count` varchar(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL,
`word` varchar(100) NOT NULL,
PRIMARY KEY (`word`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci ;

代码

import java.sql.{
   Connection, DriverManager, PreparedStatement}
import org.apache.spark.rdd.RDD
import org.apache.spark.

最低0.47元/天解锁文章

大数据老人家i

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录