spark-踩坑记录
文章平均质量分 55
全部是在线上环境利用spark的踩坑和感悟
――――――
这个作者很懒,什么都没留下…
展开
-
记录一次服务器降配引起的服务器宕机导致的hdfs磁盘激增问题
服务器降配引起的服务器宕机导致的hdfs磁盘激增问题原创 2022-06-10 18:32:27 · 343 阅读 · 0 评论 -
记录spark3.x on hive时候因为依赖冲突导致的bug
记录spark3.x on hive时候因为依赖冲突导致的bug原创 2022-06-01 10:17:41 · 424 阅读 · 0 评论 -
spark3.x on hive3.x idea配置和相关坑
一:spark on hive 的两种方式1,通过jdbc的方式连接hiveserver2的方式来读取数据两种方式虽然都可以,但是第一中相对比较事多,我用的spark3.0.0里面,没有针对hive的dialect,我们自己需要根据源码实现一个 ,然后注册进去。基于jdbc的读取代码如下 ://利用jdbc方式+hive2方式读取hive数据(spark on hive报错,改用这个方式)def readDfdatafromHive(db: String, tablename: Stri原创 2022-05-31 14:38:23 · 836 阅读 · 0 评论 -
spark3.0.x用jdbc读取hive3.1.x数据,结果出现值和列明一样
代码:def readDfdatafromHive(db:String,tablename:String,sparksession:SparkSession ):DataFrame={ val df= sparksession.read .format("jdbc") .option("driver","org.apache.hive.jdbc.HiveDriver") .option("url","jdbc:hive2://hdp100:1111/") .opt原创 2022-04-25 19:28:43 · 1985 阅读 · 0 评论