Spark参数详解 写博客只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!--num-executors设置任务executor个数,默认值为4,一般调整此参数需要同时调整并行度(参考4)。任务设置executor个数的依据是业务期望任务运行时间,可以先设置一个较小值,通过调整此参数及并行度直到任务运行时间达到期望。--executor-cores设置单个execut...
spark常见问题 写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!1. 执行Broadcast大表时,等待超时异常(awaitResult)现象:org.apache.spark.SparkException: Exception thrown in awaitResult:java.util.concurrent.TimeoutException: Futures ...
关于hive当中表的存储和压缩方式总结 这几天研究hive表的存储方式和压缩模式。在这里做一个简单的总结hive表的存储样例 : 我的表:rp_person_house_loan_info 数据总量:1933776textfile: (1)hive数据表的默认格式,存储方式:行存储 。 (2)可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split上面的数据存储格...
记一次DataFrame未cache或persist的踩坑经历 实际踩的坑,业务逻辑很复杂,这里简单模拟描述下,现有hive表hive_tab,mysql表 mysql_tab,它们各自的数据如下: hive_tab mysql_tab ...
Spark读写HBase实践 Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。1.1 maven依赖需要引入Hadoop和HBase的相关依赖,版本信息根据实际情况确定。 <properties> <hadoop.version>2.6.0-cdh5.7....
Spark操作Hive分区表 原作者写的比较清楚了,特别是DDL建了表后,又用Spark向表里写数据常常写不进去,会报异常。原文地址:https://dongkelun.com/2018/12/04/sparkHivePatition/前言前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插...
Apache Kafka核心概念-多图-形象易懂(入门教程轻松学) 原文链接。https://blog.csdn.net/liyiming2017/article/details/82805479目录:kafka简介 kafka安装和使用 kafka核心概念 kafka核心组件和流程--控制器 kafka核心组件和流程--协调器 kafka核心组件和流程--日志管理器 kafka核心组件和流程--副本管理器 kafka编程实战本章是学习ka...
Spark读取mysql大数据量最佳实践 备忘 受B站,大疆在git上代码泄露影响,公司网络干脆不能登git,也不能登开源中国的码云了 ,所以在CSDN这做做日常记录吧。至于最佳实践,噱头嘛~~~Spark读取关系型数据库,官方有API接口,如下: ①、SparkSession.read.jdbc(url, table, properties) ②、SparkSession.read.jdbc(url, table, c...
mybatis generator 备忘 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE generatorConfiguration PUBLIC "-//mybatis.org//DTD MyBatis Generator Configuration 1.0//EN" "http://mybatis.org/dtd/mybatis-generator-config_...
SpringBoot中事务配置 SpringBoot创建的项目,默认没有事务,还是需要自己配,真是日了狗。还有那个启动类,对,就是包含main方法的那个类一定要放在包的最外层,最外层,最外层,不然有很多坑。包括但不限于不能扫描到你配置的类,连接ES时自定义接口无法自动注入等等。1.Xml方式跟Spring中差不多两步骤①.在resources文件夹下创建xml文件。例如:transaction.xml别问我为...
MyBatis的一级缓存实现详解 及使用注意事项 0.写在前面MyBatis是一个简单,小巧但功能非常强大的ORM开源框架,它的功能强大也体现在它的缓存机制上。MyBatis提供了一级缓存、二级缓存 这两个缓存机制,能够很好地处理和维护缓存,以提高系统的性能。本文的目的则是向读者详细介绍MyBatis的一级缓存,深入源码,解析MyBatis一级缓存的实现原理,并且针对一级缓存的特点提出了在实际使用过程中应该注意的事项。...
Spark on Yarn的运行原理 一、YARN是集群的资源管理系统1、ResourceManager:负责整个集群的资源管理和分配。2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其分配并启动Container。3、NodeManager:每个节点的资源和任务管理器,负责启动/停止Container,并监视...
Spark 创建RDD、DataFrame各种情况的默认分区数 Spark 创建RDD、DataFrame各种情况的默认分区数2018-08-13Spark DataFrame Partition Rdd前言熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDF...
ResultSet转换为DataFrame 但凡能这样写 val prop = new java.util.Properties prop.put("url", "jdbc:mysql://10.37.140.228:3306/dam?characterEncoding=UTF-8") prop.put("dbtable", "(select * from tableA where meta_create_ti...
记一次yarn环境中应用程序jar冲突解决办法 用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchMethodError)的问题。仔细看自己代码,明明有这个jar,那多半就是jar冲突了。只有当jar的版本不一致时候才会冲突,那么本着治本精神去百度,可以找到如下文章https://www.jianshu.com/p/...
深入理解SpringMVC(经典好文系列) 转载的一篇文章,作者写的真的太好了,如果作者是个女的,我一定去日了她(三年起步)……深入理解Spring MVC 思想目录 一、前言二、spring mvc 核心类与接口三、spring mvc 核心流程图四、spring mvc DispatcherServlet说明五、spring mvc 父子上下文的说明六、springMVC-mvc.xml 配置文件片段讲解 七、spring mvc 如何...