- 博客(53)
- 收藏
- 关注
原创 30分钟入门DSL工具Antlr4——概念、案例
本文主要面向初学者介绍Antlr4,一款常用语词法语法解析器生成的第三方工具包。全文主要回答几个问题:1、antlr的是什么?2、antlr的功能有哪些,如何使用?3、在公司中使用antlr案例?不知道各位是如何关注到antlr,笔者是因为硕士阶段与中兴合作的一个项目中需要写SQL解析器才渐渐了解到它。后来发现它在大数据中非常实用,尤其在SQL方面。Terence Parr的The Defi
2017-03-07 21:49:50
9398
原创 30分钟概览Spark分布式计算引擎
Spark入门30分钟概览1、为什么出现Spark?2、Spark核心是什么?3、Spark怎么进行分布式计算?4、Spark在互联网公司的实践应用?
2017-03-04 16:19:38
21815
1
原创 zeppelin使用中的问题汇总
1、使用zeppelin 0.6.2的spark interpreter报错报错:java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.rdd.RDDOperationScope$Interpreter output:com.fasterxml.jackson.databind.JsonMapping
2017-03-03 11:58:18
5310
原创 Spark立体全服务SQL鉴权
1、问题背景在Zeppelin连接Spark实现SQLStdBasedAuthorization权限验证一文中说明了使用Zeppelin的jdbc解析器连接Spark Thriftserver的鉴权处理方案,解决通过Thriftserver使用Spark sql的权限问题。要让Spark全方位提供给不同层次用户使用,开放的使用接口除了Thriftserver(jdbc接口),还有Spark...
2017-02-20 18:18:15
2486
2
原创 30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题:什么是Spark Streaming实时计算?Spark实时计算原理流程是什么?Spark 2.X下一代实时计算框架Structured StreamingSpark Streaming相对其他实时计算框架该如何技术选型?本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。1、什么是Spark Streaming?与其他大数据框架Storm、Flink一样,S
2017-02-18 17:12:49
26916
4
原创 Zeppelin连接Spark实现SQLStdBasedAuthorization权限验证
zeppelin连接Spark实现SQLStdBasedAuthorization权限验证
2017-01-12 22:58:37
3137
1
原创 spark 2.X 疑难问题汇总
当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致报错:java.lang.UnsupportedClassVersionError: com/im
2016-12-29 23:39:18
31656
2
原创 spark standalone模式作业迁移到spark on yarn
本文主要介绍spark standalone模式的作业迁移到spark on yarn上的一些操作。1、代码重新编译因为之前spark standalone项目使用的是spark 1.5.2版本,而现在的spark on yarn 使用的是spark 2.0.1,所以先需要对原来代码重新编译,建议使用maven构建项目,根据需要使用下面提供的pom.xml文件即可自动下载当前部署版本所需的jar包。
2016-11-20 23:06:19
4642
原创 spark 2.0.1 和zeppelin 0.6.2 编译及与hadoop yarn关联
以下是工作学习过程中对spark 2.0.1 和zeppeline 0.6.2的编译和关联的步骤及踩到的坑。
2016-10-28 14:16:35
1772
原创 spark入门教程(3)--Spark 核心API开发
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark综合了前人分布式数据处理架构和语言的优缺点,使用简洁、一致的函数式语言Scala作为主要开发语言,同时为了方便更多语言背景的人使用,还支持Java、Python和R语言。Spark因为其弹性分布式数据集(R...
2016-04-13 20:52:28
14124
3
原创 Spark入门教程(2)---开发、编译配置
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark为使用者提供了大量的工具和脚本文件,使得其部署与开发变得十分方便快捷,本章将会分别从运行(含集群部署)、开发以及源码编译三个角度,来介绍Spark相关环境的具体配置流程。对于初次接触Spark的读者,建议仅需阅读运行环境部署和开发...
2016-04-11 10:30:56
10116
原创 Spark入门教程(1)——spark是什么及发展趋势概述
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的
2016-04-06 09:41:30
45799
原创 spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that wor
spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that…Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered
2015-03-23 22:59:26
3318
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅