Spark_十光年的博客-CSDN博客

Spark

关注

文章平均质量分 59

关注数：文章数：13 文章阅读量：11937 文章收藏量：18

作者: 十光年

这个作者很懒，什么都没留下…

展开

跟天齐老师学Spark（2）--spark基础概念

spark基础概念：2014年才成为Apache的顶级项目，距今才两年。但是发展迅速。spark是基于内存的计算，现在搞spark的，现在内存都不是问题，腾讯现在的集群达到上万台，每台机器都是100多G的内存。内存不够还可以落磁盘。spark的优点：中间结果可以在内存中，而MapReduce中间结果落磁盘。spark是hadoop的一个替代方案，但是它只能替代MapReduce

原创 2017-02-06 22:52:50 · 393 阅读 · 0 评论
SparkStreaming自适应上游kafka topic partition数目变化

背景Spark Streaming 作业在运行过程中，上游 topic 增加 partition 数目从 A 增加到 B，会造成作业丢失数据，因为该作业只从 topic 中读取了原来的 A 个 partition 的数据，新增的 B-A 个 partition 的数据会被忽略掉。思考过程为了作业能够长时间的运行，一开始遇到这种情况的时候，想到两种方案：感知上游 to

转载 2017-02-09 17:41:21 · 1443 阅读 · 0 评论
Spark性能优化指南——基础篇

Spark性能优化指南——基础篇文章来源：http://tech.meituan.com/spark-tuning-basic.html李雪蕤 ·2016-04-29 14:00前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应

转载 2017-02-09 09:26:58 · 282 阅读 · 0 评论
基于Spark的公安大数据实时运维技术实践

文章来源：https://www.iteblog.com/archives/1956.html公安行业存在数以万计的前后端设备，前端设备包括相机、检测器及感应器，后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统，数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满

转载 2017-02-09 08:36:52 · 1029 阅读 · 0 评论
带有状态的SparkStreaming单词计数程序

在另外一篇《SparkStreaming的入门级程序：WordCount》文章中，只是统计每一个批次的数据，是不带状态的单词计数程序，使用的是reduceByKey()方法，它只能统计当前批次的单词个数，而不会累加上一个批次的单词个数；而带有状态的单词计数程序会累加上个批次的单词个数，它使用的则是updateStateByKey()方法。在pom.xml文件中引入一下依赖：

原创 2017-02-07 18:15:21 · 1122 阅读 · 0 评论
跟天齐老师学Spark（8）--Spark RDD综合练习

综合练习:通过基站信息计算家庭地址和工作地址需求：根据手机信号来计算其所在的位置手机一开机，就会和附近的基站建立连接，建立连接和断开连接都会被记录到服务器上的日志，所以即使没手机有开启网络或者GPS,也可以定位手机所在的位置。基站都有一定的辐射范围，并且根据信号强度有不同的信号级别，比如2G、3G和4G信号。我们虽然不知道手机用户所在的具体位置，但是我们知道基站的位置，

原创 2017-02-06 23:09:50 · 2427 阅读 · 0 评论
跟天齐老师学Spark（7）--关于Spark的RDD

关于spark的RDD：关于RDD，可以查看官方文档，可以看作者的论文，也可以看spark源码中关于RDD的注释。按Ctrl+N快捷键，搜索RDD，进入源码，如果没有关联源码，在IDEA中右上角会有一个提示："Attach Sources".在IDEA中关联spark的源码，首先解压下载好的spark源码包（spark-1.6.2.tgz），然后在IDEA中选择右上角的Atta

原创 2017-02-06 23:06:19 · 436 阅读 · 0 评论
跟天齐老师学Spark（6）--Spark的常用算子介绍

spark的常用算子介绍：Resilient（弹性且可复原） Distributed（分布式） Datasets（数据集） (RDDs)我们以前学的scala的原生方法都是数组或者集合上定义的，它只能操作单机。而spark中的方法都是定义在RDD上的，它们操作的是集群。spark的方法有两类操作：一种是：Transformations，它是lazy的，不会触发任务的执行

原创 2017-02-06 23:04:38 · 1104 阅读 · 0 评论
跟天齐老师学Spark（5）--使用IDEA开发Spark程序

使用IDEA开发spark程序:补全的快捷键："Ctrl+Alt+v"下面是提交spark程序到spark集群上运行的命令：spark/bin/spark-submit \--master spark://hadoop01:7077,spark://hadoop02:7077 \--executor-memory 512m --total-executor-cores 7

原创 2017-02-06 23:00:50 · 719 阅读 · 0 评论
跟天齐老师学Spark（4）--Spark整合hdfs

spark整合hdfs：需求：从hdfs中读取数据，用spark计算，再写到hdfs中。启动zookeeper；启动hadoop的hdfs；然后启动spark（我们这里就不启动高可用集群了，这里只启动一个Master）；向spark集群提交任务；spark-shell中写的程序仅仅是做实验；实际开发中，是先在IDE中开发spark程序，然后打包，提交到集群。然后用

原创 2017-02-06 23:00:02 · 663 阅读 · 0 评论
跟天齐老师学Spark（3）--搭建Spark环境

搭建spark环境（伪分布式，在虚拟机上用一台机器来编写一个spark程序）：Spark解压就能用。首先spark环境，首先要按照jdk，但可以不用按照scala环境。下载的spark最好是和hadoop版本匹配的spark版本，比如：spark-1.6.2-bin-hadoop2.6.tgz;需要自己使用maven来编译（后面会讲）。使用bin目录下的spark-sh

原创 2017-02-06 22:53:35 · 639 阅读 · 0 评论
跟天齐老师学Spark（1）--Spark简介

spark官网：http://spark.apache.orgSpark其实是一个大数据计算引擎，只能解决计算的问题，它需要依赖数据的存储系统；Spark不会取代Hadoop，因为Hadoop不仅是解决了计算的问题，它还解决了存储的问题；spark是apache旗下的一个开源框架。它的logo：快如闪电的一个集群。用来做大规模的数据计算处理。在2016年7月出来spark-

原创 2017-02-06 22:51:10 · 354 阅读 · 0 评论
Flume+Spark+Hive+Spark SQL离线分析系统

目录(?)[+]前段时间把Scala和Spark一起学习了，所以借此机会在这里做个总结，顺便和大家一起分享一下目前最火的分布式计算技术Spark！当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，Spark Streaming 组件做实时计算，和Kafka等消息系统也有很好的兼容性；Spark Sql，可以让用户通过标准SQL语句操作从不同的数据源

转载 2017-02-09 17:46:34 · 1326 阅读 · 0 评论

Spark

作者: 十光年

跟天齐老师学Spark（2）--spark基础概念

SparkStreaming自适应上游kafka topic partition数目变化

Spark性能优化指南——基础篇

基于Spark的公安大数据实时运维技术实践

带有状态的SparkStreaming单词计数程序

跟天齐老师学Spark（8）--Spark RDD综合练习

跟天齐老师学Spark（7）--关于Spark的RDD

跟天齐老师学Spark（6）--Spark的常用算子介绍

跟天齐老师学Spark（5）--使用IDEA开发Spark程序

跟天齐老师学Spark（4）--Spark整合hdfs

跟天齐老师学Spark（3）--搭建Spark环境

跟天齐老师学Spark（1）--Spark简介

Flume+Spark+Hive+Spark SQL离线分析系统