- 博客(4)
- 收藏
- 关注
转载 broadcast hash join和sort merge join
Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupby以及Join操作等。其中Join操作是最复杂、代价最大的操作类型,也...
2018-10-26 14:02:35 565
原创 Spark Adaptive Execution
最近遇到了很多spark性能优化的问题,刚好找到了一篇比较全面的总结,但没有给出具体实现方法。 所以这边打算罗列一下计划优化的点,慢慢抽时间研究、优化,最后打算应用到公司业务中,并争取贡献到spark社区。 ----------------------------------------------------------------------------------------------...
2018-10-25 17:03:07 4663 1
转载 使用jmap和MAT分析JVM堆内存
我的一台生产环境机器每次运行几天之后就会莫名其妙的宕机,分析日志之后发现在tomcat刚启动的时候内存占用比较少,但是运行个几天之后内存占用越来越大,通过jmap命令可以查询到一些大对象引用没有被及时GC,这里就要求解决内存泄露的问题。 Java的内存泄露多半是因为对象存在无效的引用,对象得不到释放,如果发现Java应用程序占用的内存出现了泄露的迹象,那么我们一般采用下面的步骤分析: 1. 用工...
2018-10-18 15:01:12 514
转载 HBase基本架构及原理
1. HBase框架简单介绍 HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFi...
2018-10-12 11:41:57 13884
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人