spark
文章平均质量分 73
精通要饭
如果能在同龄人中做的更好,为什么不是我呢?
展开
-
记一次yarn环境中应用程序jar冲突解决办法
用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchMethodError)的问题。仔细看自己代码,明明有这个jar,那多半就是jar冲突了。只有当jar的版本不一致时候才会冲突,那么本着治本精神去百度,可以找到如下文章https://www.jianshu.com/p/...原创 2018-12-18 15:04:04 · 2406 阅读 · 0 评论 -
ResultSet转换为DataFrame
但凡能这样写 val prop = new java.util.Properties prop.put("url", "jdbc:mysql://10.37.140.228:3306/dam?characterEncoding=UTF-8") prop.put("dbtable", "(select * from tableA where meta_create_ti...原创 2019-01-17 11:21:54 · 3918 阅读 · 4 评论 -
Spark on Yarn的运行原理
一、YARN是集群的资源管理系统1、ResourceManager:负责整个集群的资源管理和分配。2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其分配并启动Container。3、NodeManager:每个节点的资源和任务管理器,负责启动/停止Container,并监视...转载 2019-03-13 17:00:25 · 990 阅读 · 0 评论 -
Spark读取mysql大数据量最佳实践 备忘
受B站,大疆在git上代码泄露影响,公司网络干脆不能登git,也不能登开源中国的码云了 ,所以在CSDN这做做日常记录吧。至于最佳实践,噱头嘛~~~Spark读取关系型数据库,官方有API接口,如下: ①、SparkSession.read.jdbc(url, table, properties) ②、SparkSession.read.jdbc(url, table, c...原创 2019-04-29 11:13:34 · 5110 阅读 · 4 评论 -
Spark读写HBase实践
Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。1.1 maven依赖需要引入Hadoop和HBase的相关依赖,版本信息根据实际情况确定。 <properties> <hadoop.version>2.6.0-cdh5.7....转载 2019-05-24 20:38:00 · 299 阅读 · 0 评论 -
Spark操作Hive分区表
原作者写的比较清楚了,特别是DDL建了表后,又用Spark向表里写数据常常写不进去,会报异常。原文地址:https://dongkelun.com/2018/12/04/sparkHivePatition/前言前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插...转载 2019-05-23 10:04:48 · 2462 阅读 · 0 评论