2016年07月_小狼_百度

12月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 JVM 调优 —— GC 长时间停顿问题及解决方法

零. 简介垃圾收集器长时间停顿，表现在 Web 页面上可能是页面响应码 500 之类的服务器错误问题，如果是个支付过程可能会导致支付失败，将造成公司的直接经济损失，程序员要尽量避免或者说减少此类情况发生。一. 并发模式失败（concurrent mode failure）并发模式失败日志： 2016-02-21T13:53:0

2016-07-29 13:29:50 21696 1

转载 Spark Streaming 订单关联案例剖析

Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计，使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x)，并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少，而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St

2016-07-28 17:21:42 406

转载 JVM实用参数（八）GC日志

原文地址：https://blog.codecentric.de/en/2014/01/useful-jvm-flags-part-8-gc-logging/作者：PATRICK PESCHLOW，译者：Greenster 校对：梁海舰本系列的最后一部分是有关垃圾收集（GC）日志的JVM参数。GC日志是一个很重要的工具，它准确记录了每一次的GC的执行时间和执行结果，通过分析GC日志

2016-07-28 16:04:31 263

转载 JVM实用参数（七）CMS收集器

HotSpot JVM的并发标记清理收集器(CMS收集器)的主要目标就是：低应用停顿时间。该目标对于大多数交互式应用很重要，比如web应用。在我们看一下有关JVM的参数之前,让我们简要回顾CMS收集器的操作和使用它时可能出现的主要挑战。就像吞吐量收集器(参见本系列的第6部分),CMS收集器处理老年代的对象,然而其操作要复杂得多。吞吐量收集器总是暂停应用程序线程，并且可能是相当长的一段时间，

2016-07-28 15:43:28 331

转载 JVM实用参数（六）吞吐量收集器

在实践中我们发现对于大多数的应用领域，评估一个垃圾收集(GC)算法如何根据如下两个标准：吞吐量越高算法越好暂停时间越短算法越好首先让我们来明确垃圾收集(GC)中的两个术语:吞吐量(throughput)和暂停时间(pause times)。 JVM在专门的线程(GC threads)中执行GC。只要GC线程是活动的，它们将与应用程序线程(application threads)争

2016-07-28 15:24:48 615

转载 JVM实用参数（四）内存调优

理想的情况下，一个Java程序使用JVM的默认设置也可以运行得很好，所以一般来说，没有必要设置任何JVM参数。然而，由于一些性能问题（很不幸的是，这些问题经常出现），一些相关的JVM参数知识会是我们工作中得好伙伴。在这篇文章中，我们将介绍一些关于JVM内存管理的参数。知道并理解这些参数，将对开发者和运维人员很有帮助。所有已制定的HotSpot内存管理和垃圾回收算法都基于一个相同的堆内存划分

2016-07-27 16:54:57 1141

转载 JVM 实用参数-5 新生代垃圾回收

本部分，我们将关注堆(heap) 中一个主要区域，新生代(young generation)。首先我们会讨论为什么调整新生代的参数会对应用的性能如此重要，接着我们将学习新生代相关的JVM参数。单纯从JVM的功能考虑，并不需要新生代，完全可以针对整个堆进行操作。新生代存在的唯一理由是优化垃圾回收(GC)的性能。更具体说，把堆划分为新生代和老年代有2个好处：简化了新对象的分配(只在新生代分配内

2016-07-26 15:43:37 1174

转载用jstack诊断java应用故障

公司的生产系统大多是java应用，特别是java消费者，前段时间频繁出现故障。消息队列会突然堵塞，查看消费者日志，发现处理延时明显延长，而此时网络无丢包。最后多方排查，是java消费者运行出现死锁。这种问题可以通过jstack来dump获取java stack和native stack信息查明问题。如：jstack [-l] pid提供一个测试的例子：/**

2016-07-26 14:37:34 611

转载 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解

JDK本身提供了很多方便的JVM性能调优监控工具，除了集成式的VisualVM和jConsole外，还有jps、jstack、jmap、jhat、jstat、hprof等小巧的工具，本博客希望能起抛砖引玉之用，让大家能开始对JVM性能调优的常用工具有所了解。

2016-07-26 14:01:49 663

转载 Young GC日志分析

JVM的GC日志的主要参数包括如下几个：-XX:+PrintGC 输出GC日志-XX:+PrintGCDetails 输出GC的详细日志-XX:+PrintGCTimeStamps 输出GC的时间戳（以基准时间的形式）-XX:+PrintGCDateStamps 输出GC的时间戳（以日期的形式，如 2013-05-04T21:53:59.234+0800）-

2016-07-26 12:14:02 2654

转载数据库分库分表(sharding)系列(五) 一种支持自由规划无须数据迁移和修改路由代码的Sharding扩容方案

2016-07-19 17:52:00 809

转载 Spark闭包与序列化

本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载，否则将委托CSDN官方维护权益！Spark的官方文档再三强调那些将要作用到RDD上的操作，不管它们是一个函数还是一段代码片段，它们都是“闭包”，Spark会把这个闭包分发到各个worker节点上去执行，这里涉及到了一个容易被忽视的问题：闭包的“

2016-07-13 13:47:37 1707

转载 Spark编程指引(二)---------------RDD介绍，闭包对RDD的影响，如何打印RDD。

RDD OperationsRDD支持两种操作类型：转换，从现有数据集创建一个新的数据集。动作：在数据集上进行计算，并对驱动程序返回一个值。比如，map是一个转换，它对数据集中的每个元素执行一个函数，然后返回一个新的RDD代表执行结果。reduce是一个动作，它通过一些函数聚合RDD中的所有元素，然后对驱动程序返回最后的结果。（虽然也有一个并行的reduceByKe

2016-07-13 13:46:45 407

转载 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2：s

2016-07-12 15:57:27 575

转载 spark使用KryoRegistrator java代码示例

转载引用自：http://www.cnblogs.com/tovin/p/3833985.html最近在使用spark开发过程中发现当数据量很大时，如果cache数据将消耗很多的内存。为了减少内存的消耗，测试了一下 Kryo serialization的使用代码包含三个类，KryoTest、MyRegistrator、Qualify。我们知道在Spark默认使用的是Jav

2016-07-12 15:55:56 626

转载 Spark 性能相关参数配置详解－Storage篇

作者：刘旭晖 Raymond 转载请注明出处Email：colorant at 163.comBLOG：http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。

2016-07-11 16:37:48 632

转载处理大型Excel文件的Java类库： X4J Analytic

x4j-analytic是一个用于Java编程语言的开源XLSX格式模板引擎API。X4J可嵌入在Java应用程序库，作为实现完全成熟的报表解决方案。X4J拥有很高的性能，能够使用恒定内存在数秒内产生一百万行的Excel报表。X4J主输入/输出格式是XLSX，Excel是作为设计编辑模板。也可以导出其他格式的报表：PDF，HTML，XML，CSV。package x4j.sampl

2016-07-08 09:56:57 1747

转载 POI使用SAX处理大量数据的xlsx格式的Excel文件

POI在处理Excel方面确实比较方便，但是当Excel数据量比较大的时候，使用POI处理就会导致java.lang.OutOfMemoryError: Java heap space的错误，当有大量数据写入xlsx文件时，POI为我们提供了SXSSFWorkBook类来处理，这个类的处理机制是当内存中的数据条数达到一个极限数量的时候就flush这部分数据，再依次处理余下的数据，这个在大多数场景能

2016-07-08 09:55:40 2051

转载 Spark函数讲解：aggregateByKey

该函数和aggregate类似，但操作的RDD是Pair类型的。Spark 1.1.0版本才正式引入该函数。官方文档定义：Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a different resu

2016-07-01 14:31:29 4998