自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

简单就好

生无所息

  • 博客(53)
  • 收藏
  • 关注

原创 30分钟入门DSL工具Antlr4——概念、案例

本文主要面向初学者介绍Antlr4,一款常用语词法语法解析器生成的第三方工具包。全文主要回答几个问题:1、antlr的是什么?2、antlr的功能有哪些,如何使用?3、在公司中使用antlr案例?不知道各位是如何关注到antlr,笔者是因为硕士阶段与中兴合作的一个项目中需要写SQL解析器才渐渐了解到它。后来发现它在大数据中非常实用,尤其在SQL方面。Terence Parr的The Defi

2017-03-07 21:49:50 9398

原创 30分钟概览Spark分布式计算引擎

Spark入门30分钟概览1、为什么出现Spark?2、Spark核心是什么?3、Spark怎么进行分布式计算?4、Spark在互联网公司的实践应用?

2017-03-04 16:19:38 21815 1

原创 zeppelin使用中的问题汇总

1、使用zeppelin 0.6.2的spark interpreter报错报错:java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.rdd.RDDOperationScope$Interpreter output:com.fasterxml.jackson.databind.JsonMapping

2017-03-03 11:58:18 5310

原创 Spark立体全服务SQL鉴权

1、问题背景在Zeppelin连接Spark实现SQLStdBasedAuthorization权限验证一文中说明了使用Zeppelin的jdbc解析器连接Spark Thriftserver的鉴权处理方案,解决通过Thriftserver使用Spark sql的权限问题。要让Spark全方位提供给不同层次用户使用,开放的使用接口除了Thriftserver(jdbc接口),还有Spark...

2017-02-20 18:18:15 2486 2

原创 30分钟概览Spark Streaming 实时计算

本文主要介绍四个问题:什么是Spark Streaming实时计算?Spark实时计算原理流程是什么?Spark 2.X下一代实时计算框架Structured StreamingSpark Streaming相对其他实时计算框架该如何技术选型?本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。1、什么是Spark Streaming?与其他大数据框架Storm、Flink一样,S

2017-02-18 17:12:49 26916 4

原创 Zeppelin连接Spark实现SQLStdBasedAuthorization权限验证

zeppelin连接Spark实现SQLStdBasedAuthorization权限验证

2017-01-12 22:58:37 3137 1

原创 spark 2.X 疑难问题汇总

当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致报错:java.lang.UnsupportedClassVersionError: com/im

2016-12-29 23:39:18 31656 2

原创 spark standalone模式作业迁移到spark on yarn

本文主要介绍spark standalone模式的作业迁移到spark on yarn上的一些操作。1、代码重新编译因为之前spark standalone项目使用的是spark 1.5.2版本,而现在的spark on yarn 使用的是spark 2.0.1,所以先需要对原来代码重新编译,建议使用maven构建项目,根据需要使用下面提供的pom.xml文件即可自动下载当前部署版本所需的jar包。

2016-11-20 23:06:19 4642

原创 spark 2.0.1 和zeppelin 0.6.2 编译及与hadoop yarn关联

以下是工作学习过程中对spark 2.0.1 和zeppeline 0.6.2的编译和关联的步骤及踩到的坑。

2016-10-28 14:16:35 1772

原创 spark入门教程(3)--Spark 核心API开发

本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark综合了前人分布式数据处理架构和语言的优缺点,使用简洁、一致的函数式语言Scala作为主要开发语言,同时为了方便更多语言背景的人使用,还支持Java、Python和R语言。Spark因为其弹性分布式数据集(R...

2016-04-13 20:52:28 14124 3

原创 Spark入门教程(2)---开发、编译配置

本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark为使用者提供了大量的工具和脚本文件,使得其部署与开发变得十分方便快捷,本章将会分别从运行(含集群部署)、开发以及源码编译三个角度,来介绍Spark相关环境的具体配置流程。对于初次接触Spark的读者,建议仅需阅读运行环境部署和开发...

2016-04-11 10:30:56 10116

原创 Spark入门教程(1)——spark是什么及发展趋势概述

本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的

2016-04-06 09:41:30 45799

原创 spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that wor

spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that…Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered

2015-03-23 22:59:26 3318

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除