2017年10月_ZhaoYingChao88

12月 11月 10月 06月 05月 04月 03月 01月

原创 ElasticSearch 优化实战

二. 查询性能（Query Perofrmance）王道是什么？routing，routing，还是 routing。我们为了提高查询速度，减少慢查询，结合自己的业务实践，使用多个集群，每个集群使用不同的 routing。比如，用户是一个routing维度。在实践中，这个routing 非常重要。我们碰到一

2017-10-28 15:17:50 1078

原创 ElasticSearch 优化总结

ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4ES Version: 2.xOSOS 参数说明vm.swappiness1

2017-10-28 15:08:56 830

原创 elasticsearch调优技巧

elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改，也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费，默认是1s同步，如果我们不要求实时性，我们可以执行如下:$ curl -XPUT 'http://localhost:9200/twitter/' -d '{ "

2017-10-28 09:39:45 8454

原创 NiFi流处理引擎

有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming，今天介绍一个大家不一定用得很多，但是却很有特点的东西，NiFi。前面写了flink的文章，其实流处理不止有flink、storm、spark streaming，说实话这些其实都是比较传统的流处理框架。今天介绍一个大家不一定用得很多，但是却很有特点的东西，NiFi。

2017-10-24 19:26:10 6082

原创 spark driver HA

实验环境： zookeeper-3.4.6 Spark：1.6.0 简介：本篇博客将从以下几点组织文章：一：Spark 构建高可用HA架构二：动手实战构建高可用HA 三：提交程序测试HA一：Spark 构建高可用HA架构 Spark本身是Master和Slave,而这这里的 Master是指Spark资源调度和分配。负责整个集群的资源调度和分

2017-10-24 10:16:29 1278

转载 SparkStreaming Kafka基本概念

1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理，来一条数据就立即进行处理SparkStreaming微批处理，每次处理的都是一批非常小的数据Storm支持动态调整并行度（动态的资源分配），SparkStreaming(粗粒度，比

2017-10-24 09:47:38 622

原创最全spark基础知识

《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码；lDriver：Spark中的Driver即运行上述Applicati

2017-10-23 20:13:45 926

原创 spark性能优化高级篇

Spark性能调优高级篇分类：spark平台学习（2）目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优

2017-10-23 19:33:13 460

转载 spark SQL上踩过的坑

那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark ui上一直处于pending状态，且永远不结束，如下图所示

2017-10-21 19:58:25 1065

原创 spark-sql调优

sparksql性能调优性能优化参数代码实例import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.api.java.JavaSQLContext

2017-10-21 19:45:41 4086

原创 Spark Sql性能测试

Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢，而不是失败，因为还有磁盘可用错误日志：Task：java.io.IOException: Filesystem closed atorg.apache.hadoop.hdfs.DFSClient.check

2017-10-21 19:38:37 1010

原创机器学习与深度学习资料

机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这

2017-10-21 19:17:58 3907

原创 JVM调优实战

java application项目（非web项目）改进前：-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CMSInitiatingOccupancyFraction=78-XX:ThreadStackSize=128-Xloggc:logs/gc.log-Dsun.rmi.dgc

2017-10-18 19:36:15 412

原创 Spark on Yarn下JVM的OOM问题及解决方式

Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on Yarn cluster mode: 此时有可能会报OOM的错误，具体来说：由于Client模式下一定没有出现OOM，而在Cluster模式下一定出现了

2017-10-18 17:58:34 1845

原创 Spark SQL UDF和UDAF示例

Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types._

2017-10-18 17:46:40 2126