spark互动问答
文章平均质量分 65
Spark亚太研究院
这个作者很懒,什么都没留下…
展开
-
【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】 Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么? Spark1.0 以前支持即席查询的技术是Shark; Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL; 尚未发布的Spark 1.1开始Spark原创 2014-07-28 16:48:16 · 1081 阅读 · 0 评论 -
【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1:AppClient和worker、master之间的关系是什么? AppClient是在StandAlone模式下SparkContext.runJob的时候原创 2014-10-08 15:00:22 · 992 阅读 · 0 评论 -
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用; 国内也有公司在使用; Q2:impala和spark sql如何选择呢? Impala已经被官方宣布“安乐死”,被官方温柔的放弃;原创 2014-09-24 10:13:09 · 475 阅读 · 0 评论 -
【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目; Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已经使用Docker全面全面升级了自己的BAE,升级后的BAE无论是性能还是业务表现均超出预期; Q2:Docker与云计算OpenSta原创 2014-09-12 10:12:05 · 720 阅读 · 0 评论 -
【互动问答分享】第9期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第9期互动问答分享】 Q1: Spark GraphX的用途在哪里? :图计算广泛应用于社交网络、电子商务,地图等领域; Spark GraphX可以轻而易举的完成基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播原创 2014-08-25 17:11:38 · 803 阅读 · 0 评论 -
【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第7期互动问答分享】 RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”。 RDD有以下核心特征:Alist of partitionsAfunction for computing each splitAlist of dependencies on ot原创 2014-08-11 14:29:36 · 566 阅读 · 0 评论 -
【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1:jobserver 企业使用情况如何?中国有一家视频网站已经使用超过JobServer超过半年的时间;2013年和2014年Spark Summit均大力推荐使用JobServer; Q2:请问,jobserver是适合企业内部还是供外部客户使用(可能原创 2014-09-19 13:16:42 · 878 阅读 · 0 评论 -
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第8期互动问答分享】 Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心API已经稳定; 从功能的角度考虑使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基础上做了非常多的改进;原创 2014-08-21 11:04:13 · 1019 阅读 · 0 评论 -
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第10期互动问答分享】 Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式Client模式如下所示:Cluster模式如下所示:原创 2014-09-04 17:54:59 · 661 阅读 · 0 评论 -
【互动问答分享】第4期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:SparkSQL和Shark有啥区别? Shark需要依赖于Hadoop上Hive去做SQL语句的解析和分析Spark,而SQL是主要依赖了Catalyst这个新的查询优化框架,在把SQL解析成逻辑执行计划之后,利用Catalyst包里的一些类和接口,执行了一些简单的执行计划优化,最后变成RDD的计算; Databricks表示,Shark更多是对Hive原创 2014-08-01 16:49:09 · 810 阅读 · 0 评论 -
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第6期互动问答分享】 Q1:sparkstreaming可以不同数据流 join吗? Spark Streaming不同的数据流可以进行join操作; Spark Streaming is an extension of the coreSpark API that allows e原创 2014-08-04 15:42:56 · 755 阅读 · 0 评论 -
Spark技术问题互动问答1
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第一期互动问答分享】 Q1:“能否延伸想象一下,Hadoop后续版本会不会通过设计调整,具备 Spark目前所具备的优势?”A1: Hadoop这几年的改进基本停留在代码层次,也就是修修补补的事情,这就导致了Hadoop现在具有深度的“技术债务”,负载累累; Ha原创 2014-07-27 10:55:26 · 545 阅读 · 0 评论 -
【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第18期互动问答分享】 Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的; Master位于集群的管理节原创 2014-10-31 15:00:38 · 648 阅读 · 0 评论