z01_ejdazhi-CSDN博客

原创 spark性能调优与BUG修正

做了一年延云YDB的开发，这一年在使用spark上真心踩了不少坑，总结一下，希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾，Spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark u...

2017-03-07 10:07:56 135

原创那些年我们在spark SQL上踩过的坑

做了一年延云YDB的开发，这一年在使用spark上真心踩了不少坑，总结一下，希望对大家有所帮助。spark 内存泄露1.高并发情况下的内存泄露的具体表现很遗憾，Spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现，有大量的activejob在spark u...

2017-03-07 10:05:28 351

原创基于spark之上的即席分析-spark内存泄漏及源码调优

spark 内存泄露高并发情况下的内存泄露的具体表现很遗憾， spark 的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行 100 并发的查询，在压测 3 天后发现了内存泄露。 a) 在进行大量小 SQL 的压测过程中发现，有大量的 activejob 在 spark ui 上一直处于 pending 状态，且永远不结束，如下图所示 b) 并

2017-03-06 16:41:27 1051

原创基于Spark之上的YDB技术原理

一.YDB的本质? 在Spark之上基于搜索引擎技术，实现索引和搜索功能。既有搜索引擎的查询速度，又有Spark强大的分析计算能力。可对多个字段进行关键字全匹配或模糊匹配检索，并可对检索结果集进行分组、排序、计算等统计分析操作。二.多种技术组合-万亿数据秒级查询三.整体架构四.倒排索引与跳跃表 1. 倒排索引与跳跃表基本原理

2017-03-06 16:40:33 587

原创基于spark之上的即席分析-日志分析场景

YDB 场景精选之运维日志、业务日志、交易流水日志的搜索与分析通过方便灵活的日志搜索分析，帮助用户及时发现问题统一日志查询平台，程序故障定位平台开发与运维人员经常需要登录线上生产系统，通过 grep、 tail、 more、 cat 等命令去生产系统里查找故障原因，排查效率很慢。且在生产系统运维人员因错误的使用调试命令导致生产系统宕机的情况路见不鲜。组建一个统一的

2017-03-06 16:39:53 459

原创基于Spark之上的基础环境设置

1.Ulimit配置操作系统默认只能打开1024个文件，打开的文件超过这个数发现程序会有“too many open files”的错误，1024对于大数据系统来说显然是不够的，如果不设置，基本上整个大数据系统是“不可用的”，根本不能用于生产环境。配置方法如下：echo "* soft nofile 128000" >> /etc/security/limits.confecho

2017-03-06 16:39:09 589

原创基于spark之上的即席分析-卓越性能

为探索性分析与即席分析而设计 YDB全称延云YDB：是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引：精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark直接对YDB检索结果集分析计算，同样场景让Spark性能加

2017-03-06 16:37:58 482

转载 YDB跟Solr Cloud、ElasticSearch区别

一、跟Solr Cloud、ElasticSearch区别谈到YDB的索引技术，相信很多同学都会想到Solr、ElasticSearch。他们俩真可谓是大名鼎鼎，是两个顶级项目，最近有些同学经常问我，“开源世界有Solr、ElasticSearch为什么还要使用YDB?” 在回答这个问题之前，大家可以思考一个问题，既然已经有了Oracle、M

2017-02-20 10:57:27 384

转载 YDB技术原理

第十二章YDB技术原理一、铺一条让Spark跑的更快的路二、YDB的本质在Spark之上基于搜索引擎技术，实现索引和搜索功能。既有搜索引擎的查询速度，又有Spark强大的分析计算能力。可对多个字段进行关键字全匹配或模糊匹配检索，并可对检索结果集进行分组、排序、计算等统计分析操作。三、多种技术

2017-02-20 10:56:56 560

转载 YDB场景精选

第十一章YDB场景精选一、多维检索与探索性分析1.IT运维日志、业务日志、交易流水日志的搜索与分析通过方便灵活的日志搜索分析，帮助用户及时发现问题l统一日志查询平台，程序故障定位平台开发与运维人员经常需要登录线上生产系统，通过grep、tail、more、cat等命令去生产系统里查找故障原因，排查效率很慢。且在生产系统运维人员因错误的使用调试命

2017-02-20 10:56:08 351

转载 YDB进阶使用详解

第十章YDB进阶使用详解一、Lucene原生查询语法的使用 YDB的索引本质上是Lucene索引，如果之前有使用Solr Cloud、ElasticSearch的朋友肯定对Lucene不陌生，对于Lucene有自己的强大的过滤筛选方式，YDB里面依然兼容这种语法方式。1.使用ydb_raw_query_s like 进行Lucene语法匹配示例：

2017-02-20 10:55:18 1577

转载 YDB运维必读

一、YDB升级步骤1.停止YDB服务通过./stop-all.sh来停止服务（注：HDP版本需要在管理页面上停止服务）2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份Hive本地元数据库本地元数据库是指Hive元

2017-02-20 10:54:08 984

转载如何升级YDB

一、YDB升级步骤1.停止YDB服务通过./stop-all.sh来停止服务（注：HDP版本需要在管理页面上停止服务）2.备份旧程序1)备份旧版YDB整个程序目录2)备份我们自己开发或添加的第三方的jar包和配置文件3)备份YDB提供的Spark整个程序目录4)备份Hive本地元数据库本地元数据库是指Hiv

2017-02-20 10:52:59 320

转载 YDB函数

第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层对于YDB系统来说，我们将索引与Spark集成在了一起，但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理，大家可以注意下架构图里面的那两个箭头，注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看

2017-02-20 10:51:14 629

转载 YDB基本使用详解

第七章YDB基本使用详解一、如何与YDB对接（交互）目前延云YDB提供如下几种方式l命令行的方式lWeb http接口的方式lJDBC接口的方式通过Java编程接入通过可视化SQL分析统计接入通过报表分析工具接入二、命令行接入进入ya100的安装目录的bin目录1.直接执行 ./conn.sh 即可。

2017-02-20 10:50:04 1944

转载基于原版Hadoop的YDB部署

YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密集型的业务，

2017-02-20 10:48:39 412

转载基于HDP版本的YDB安装部署

第三章 YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密

2017-02-20 10:46:34 512

转载大索引技术大数据的未来

一、大索引技术，大数据的未来 YDB并没有采用堆积机器，靠大内存和SSD硬盘的方式来提升计算速度。YDB采用索引技术, 在RDBMS中索引的概念大家一点都不陌生，但是在大数据里大家似乎没有听过，YDB将索引创建在HDFS中，通过索引技术，将大数据分门别类整理好，就像是一个新华字典的目录，通过目录可以快速到相关数据，避免了暴力的扫描，从而提升查询速度。1.当大数据使用上大

2017-02-20 10:45:34 295

转载 YDB基础

第二章 YDB基础一、YDB是什么？ YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。 YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark对YDB检

2017-02-20 10:44:26 509

转载大数据分析与处理

一、大数据分析与处理1.文件批处理以MapReduce、Hive为典型代表，批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎，使得海量数据分析成为可能。没有批处理引擎的诞生，也就没有今天风风火火的大数据。数据通常积累达到一个周期后定期运行，也就是所谓的T+1数据，即典型的T为一天，即数据延迟一天。批处理的业务

2017-02-20 10:42:37 805

转载大数据技术

一、大数据技术的发展的三个阶段1.存起来-等待机遇 2009年开始BAT大力发展Hadoop技术，这个期间主要解决海量数据的存储与简单分析问题。既然大数据有价值，那么就先将数据存起来。要发挥数据的价值，我们先要有数据。n网站浏览点击行为日志存储n简单的PV与UV统计，满足基本需求n更注重存储能力、集群规模、扩展能力2.用

2017-02-20 10:41:21 892

转载世界因大数据而改变

不管你信也好，不信也好，大数据时代真的来临了。随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间，攻陷了全部的大数据阵地。一、世界因大数据而改变1.有哪些我们所熟知的大数据？ l物联网(I

2017-02-20 10:37:24 553

z01_ejdazhi的博客