大数据系统
致力大数据系统研究,发布大数据系统创新理念、先进架构、前沿技术、产业趋势和资本动态的平台,努力打造“有特色、高水平、国际化”的大数据系统思想高地。
网络空间发展与战略研究中心
这个作者很懒,什么都没留下…
展开
-
Spark剖析电子书[Spark SQL]
https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql.html原创 2020-04-21 17:49:24 · 281 阅读 · 0 评论 -
Spark SQL Catalyst源码分析之Optimizer
/** Spark SQL源码分析系列文章*/ 原文链接:http://blog.csdn.net/oopsoom/article/details/38121259 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimize转载 2018-01-11 14:32:04 · 473 阅读 · 0 评论 -
Spark SQL 物理执行计划各操作实现
版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22748841目录(?)[+]SparkStrategy: logical to physicalCatalyst作为一个实现无关的查询优化框架,在优化后的逻辑执行计划到真正的物理执行计划这部分只提供了接口,没有提供像Analyzer和Optimiz转载 2018-01-01 23:43:17 · 741 阅读 · 0 评论 -
Catalyst 优化逻辑执行计划规则
版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22723699目录(?)[+]Optimizer本文分析Catalyst Optimize部分实现的对逻辑执行计划(LogicalPlan)的处理规则。Optimizer处理的是LogicalPlan对象。Optimi转载 2018-01-01 23:41:11 · 462 阅读 · 0 评论 -
Spark Catalyst 源码分析
版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22302003目录(?)[+]ArchitectureØ 把输入的SQL,parse成unresolved logical plan,这一步参考SqlParser的实现Ø 把unresolved logical plan转转载 2018-01-01 23:39:12 · 522 阅读 · 0 评论 -
Spark SQL组件源码分析
版权声明:原文链接:http://blog.csdn.net/pelick/article/details/21788953目录(?)[-]功能Catalyst介绍分析总结功能Spark新发布的Spark SQL组件让Spark对SQL有了别样于Shark基于Hive的支持。参考官方手册,具体分三部分:其一,能在Scala代码里写SQL,转载 2018-01-01 23:37:19 · 353 阅读 · 0 评论 -
Spark性能调优-数据本地性
性能调优数据本地性Spark在Driver上,对Application的每一个stage的task,进行分配之前,都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;Spark的task分配算法,优先,会希望每个task正好分配到它要计算的数据所在的节点,这样的话,就不用在网络间传输数据;但是呢,通常来说,有时,事与愿违,可能t转载 2017-12-04 21:53:01 · 637 阅读 · 0 评论 -
使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码
原文链接 https://www.cnblogs.com/zlslch/p/5881893.html前言 其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来。 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程。 准备工作 1、scala 2.10.4转载 2017-11-20 13:10:56 · 5078 阅读 · 0 评论 -
Spark SQL Catalyst源码分析之TreeNode Library
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如何对Analyzed Logical Plan进行优化的生成Optimized L转载 2018-01-11 15:24:00 · 330 阅读 · 0 评论 -
为Catalyst创建用户自定义的优化规则
Spark 2.0 is the next major release of Apache Spark. This release brings major changes to abstractions, API’s and libraries of the platform. This release sets the tone for next year’s direction of the转载 2018-01-11 18:37:26 · 423 阅读 · 0 评论 -
使用Spark读取并分析二进制文件
需求客户希望通过spark来分析二进制文件中0和1的数量以及占比。如果要分析的是目录,则针对目录下的每个文件单独进行分析。分析后的结果保存与被分析文件同名的日志文件中,内容包括0和1字符的数量与占比。要求:如果值换算为二进制不足八位,则需要在左侧填充0。可以在linux下查看二进制文件的内容。命令:xxd –b –c 1 filename-c 1是显示1列1个字符,-b是显...转载 2019-09-06 09:47:44 · 2363 阅读 · 0 评论 -
Hue框架
Hue是一个图形化的用户界面,去操作或者开发一些hadoop应用,集成一些框架。 一 Hue架构图支持的框架:JobOOZIE PIG HDFS:查文件 文件的管理:增删改查 HiveMetaStore 管理器 ImaplaShell 二 Hue安装部署2.1下载解压下载地址:https://archive.cloudera.com/cdh5/cdh/5/hue-3...转载 2019-02-18 10:27:52 · 315 阅读 · 0 评论 -
spark中算子详解:aggregateByKey
请访问原文链接(很详细):https://blog.csdn.net/jiaotongqu6470/article/details/78457966原创 2018-12-21 14:46:51 · 222 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
原文:http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常...转载 2018-08-29 14:24:02 · 1269 阅读 · 0 评论 -
Spark有向无环图DAG工作原理
The Spark research paper has prescribed a new distributed programming model over classic Hadoop MapReduce, claiming the simplification and vast performance boost in many cases specially on Machine Lea...转载 2018-08-27 20:38:56 · 3201 阅读 · 0 评论 -
Maven编译打包spark(2.1.0)源码及出现问题的解决方案(win7+Intellij IDEA)
原文:https://blog.csdn.net/u011464774/article/details/767047851、相关安装请参照:http://blog.csdn.net/u011464774/article/details/76697183 不要在intellij里配置spark这一步,这里是对spark源码编译,因此不需要这一步,其他安装不变。2、下载spark...转载 2018-07-21 13:22:49 · 855 阅读 · 0 评论 -
CDH5.9.0集群部署与搭建
原文:http://blog.csdn.net/yizheyouye/article/details/53173912目录(?)[-]下载CDH各种RPM包1 下载cloudera-manager-installerbin2 下载对应平台架构的RPMS设置IP地址所有节点1 设置IP地址和网关2 设置主机名设置hosts文件所有节点关闭防火墙转载 2018-01-08 16:31:08 · 400 阅读 · 0 评论 -
Spark Catalyst的实现分析
Spark SQL是Spark内部最核心以及社区最为活跃的组件,也是未来Spark对End-User最好的接口,支持SQL语句和类RDD的Dataset/DataFrame接口。相比在传统的RDD上进行开发,Spark SQL的业务逻辑在执行前和执行过程中都有相应的优化工具对其进行自动优化(即Spark Catalyst以及Tungsten两个组件),因此未来Spark SQL肯定是主流。在S转载 2018-01-12 09:47:12 · 3974 阅读 · 1 评论 -
spark deploy_mode配置详解
spark的deploy_mode可以是client 或cluster–deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client)注意这里的client和cluste转载 2017-10-31 21:02:16 · 7443 阅读 · 2 评论 -
分布式机器学习平台比较
摘要: 机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景的应用。当然,资金驱动着这些技术以极快的速度向前发展,而且,最近我们已经看到了有很多机器学习平台正在建立起来。这篇文章调查分析了多个分布式机器学习平台所使用的设计方法,并提出了未来的研究方转载 2017-08-15 10:51:27 · 3567 阅读 · 0 评论 -
使用Spark读写CSV格式文件
CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段转载 2015-10-24 09:43:17 · 47227 阅读 · 0 评论 -
PageRank算法简介
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerankPageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法转载 2015-11-07 15:31:01 · 1554 阅读 · 0 评论 -
Task not serializable exception while running apache spark job
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable 出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)转载 2015-09-29 09:59:10 · 1685 阅读 · 2 评论 -
scala eclipse plugin 插件安装
最近在看Apache Apollo 代码,其中有很多scala代码,没办法需要安装一个scala插件。我试过zip 安装,直接下载的update-site.zip 不能直接安装到位。我又特别懒,不想复制文件夹。所以我是通过help->install new software 安装。add 输入网址:网址的连接从这里(官网)来(不要去看人家的blog ,特别是中文blog 都转载 2015-07-05 21:42:32 · 942 阅读 · 0 评论 -
Spark 简单实例(基本操作)
目录[-]1、准备文件2、加载文件3、显示一行4、函数运用 (1)map (2)collecct (3)filter (4)flatMap (5)union (6) join (7)lookup (8)groupByKey (9)sortByKey1、准备文件?1转载 2015-07-12 21:34:32 · 20163 阅读 · 0 评论 -
Spark中加载本地(或者hdfs)文件以及SparkContext实例的textFile使用
2015-04-26 13:57 默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本地文件系统读,如file:///home/user/spark/README.md网上很多例子,转载 2015-07-12 21:26:51 · 68207 阅读 · 0 评论 -
Hadoop2 在windows上的配置
读者请参视频网址:https://www.youtube.com/watch?v=VhxWig96dME以下为个人笔记:step1: 下载JDK1.8,JDK1.8 安装路径绝对不能有空格, 配置好环境变量;如D:\java\jdk1.8.0_25step2:下载hadoop-2.7.0并解压,配置hadoop环境变量step3:修改hadoop.cmd中JAVA_HOME="原创 2015-06-28 16:57:07 · 618 阅读 · 0 评论 -
LibSVM学习详细说明
代码文件主要针对Matlab进行说明,但个人仍觉得讲解的支持向量机内容非常棒,可以做为理解这一统计方法的辅助资料; LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。这套转载 2015-04-12 13:47:18 · 67839 阅读 · 12 评论 -
Spark out of memory相关问题
1.Spark OOM:java heap space,OOM:GC overhead limit exceeded解决方法1.1问题描述:在使用spark过程中,有时会因为数据增大,而出现下面两种错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError:GC overhead limi转载 2015-10-23 21:56:07 · 3206 阅读 · 0 评论 -
spark-submit命令行设置
1.5.1OverviewProgramming GuidesQuick StartSpark Programming GuideSpark StreamingDataFrames and SQLMLlib (Machine Learning)GraphX (Graph Processing)Bagel (Pregel on Spark)SparkR (R on Spark)转载 2015-10-24 09:26:54 · 5759 阅读 · 0 评论 -
how to deal with error SPARK-5063 in spark
3down votefavorite1I get the error message SPARK-5063 in the line of printlnval d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))} d is RDD[Array[String]转载 2015-10-30 00:07:32 · 3466 阅读 · 0 评论 -
大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
原文链接:http://www.aboutyun.com/thread-9219-1-1.html大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合转载 2017-01-19 15:30:18 · 474 阅读 · 0 评论 -
spark 中文编码处理
原文:http://www.cnblogs.com/westfly/p/spark_encoding_convert.html日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。研究了下Java的编码问题。网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下import org.apache.hadoop.io.Lo转载 2016-11-20 18:59:18 · 3746 阅读 · 0 评论 -
Alluxio集群部署到Spark Standalone
Alluxio集群部署一、配置Alluxio独立集群1. 下载Alluxio tar文件并解压:$ wgethttp://alluxio.org/downloads/files/1.2.0/alluxio-1.2.0-bin.tar.gz$ tar xvfz alluxio-1.2.0-bin.tar.gz2. 在alluxio/conf目录下,将alluxio原创 2016-09-14 16:09:03 · 3274 阅读 · 0 评论 -
使用Alluxio优化Spark RDD
使用Alluxio优化Spark RDDAlluxio把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工达到更高的执行效率。一、RDD的读写1.1 RDD的读取文件的输入路径要以alluxio://sparktest-m1:19998/开头,值得注意的是,第一次使用会从HDFS从读入然后写入Alluxio(如果Alluxio存储够用的话)。原创 2016-09-14 15:45:07 · 2132 阅读 · 1 评论 -
Spark+Alluxio的使用初级(转自官网)
Getting Started with Alluxio and Spark04.14.2016 | Calvin Jia86Click to share on LinkedIn (Opens in new window)86Click to share on Twitter (Opens in new window)Click to sha转载 2016-09-13 16:18:38 · 880 阅读 · 0 评论 -
Spark知识体系完整解读
来源 http://mt.sohu.com/20160522/n450849016.shtml作者:杨思义,2014年6月至今工作于北京亚信智慧数据科技有限公司 BDX大数据事业部,从2014年9月开始从事项目spark相关应用开发。 Spark简介 Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数转载 2016-06-03 19:30:26 · 4529 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spa转载 2016-06-03 12:52:21 · 643 阅读 · 0 评论 -
集群环境ssh免密码登录设置
一、准备工作1) 用客户端工具(ssh client或者putty)连接到linux服务器。在root用户下输入命令vi /etc/hosts,用vi编辑hosts文件,如下:#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 localhos转载 2016-05-04 19:39:18 · 1332 阅读 · 0 评论 -
大数据:“人工特征工程+线性模型”的尽头
原文网址 http://qing.blog.sina.com.cn/1953709481/74733da9330036o7.html?sudaref=www.google.com.hk11年的时候我加入百度,在凤巢使用机器学习来做广告点击预测。当时非常惊讶于过去两年内训练数据如此疯狂的增长。大家都在热情的谈特征,每次新特征的加入都能立即得到AUC的提升和收入的增长。大家坚信特征才是王道,相信还转载 2015-04-02 23:48:03 · 1253 阅读 · 0 评论