Spark_wuscar0703的博客-CSDN博客

Spark

关注

关注数：文章数：4 文章阅读量：1223 文章收藏量：1

作者: wuscar0703

这个作者很懒，什么都没留下…

展开

Spark入门系列之Spark 简介

Spark是一种基于内存计算的大数据并行计算框架，用于构建大型的低延迟的数据分析程序。1、Spark生态系统的特点：运行速度快：使用DAD执行引擎，支持循坏数据流与内存计算；容易使用：支持scala、java、python、R语言，还可使用spark-shell 交互式编程方式；通用性强：spark生态系统提供完整的技术栈，包括SQL查询，流式计算，运行模...

原创 2019-02-28 16:38:34 · 261 阅读 · 0 评论
Spark入门系列之Spark 生态系统 ing

在大数据系统处理方面，主要处理的是三大类数据：复杂的批量数据处理； -----------------------数十分钟 --->数小时，MR模型，spark core基于历史数据的交互式查询；--------------------数十分钟 --->数分钟，hive，Impala，spark SQL基于事实数据流的数据处理。----------------...

原创 2019-02-28 16:43:28 · 250 阅读 · 0 评论
Spark：org.apache.spark.SparkException: Task not serializable

最近调式Java语言写spark SQL 访问HBase数据表，遇到标题所述的问题，先描述下问题出现过程，然后讲述下问题解决办法。第一，在单独类中调式代码，能成功返回HBase数据，并展示出来：public class testSQLFinal { public static void main(String[] args)throws IOException { ...

原创 2019-08-07 09:15:32 · 425 阅读 · 0 评论
SPARK RDD JAVA API 用法指南

1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Pyt...

转载 2019-08-07 09:56:05 · 289 阅读 · 0 评论

Spark

作者: wuscar0703

Spark入门系列之Spark 简介

Spark入门系列之Spark 生态系统 ing

Spark：org.apache.spark.SparkException: Task not serializable

SPARK RDD JAVA API 用法指南