Spark
文章平均质量分 59
十光年
这个作者很懒,什么都没留下…
展开
-
跟天齐老师学Spark(2)--spark基础概念
spark基础概念:2014年才成为Apache的顶级项目,距今才两年。但是发展迅速。spark是基于内存的计算,现在搞spark的,现在内存都不是问题,腾讯现在的集群达到上万台,每台机器都是100多G的内存。内存不够还可以落磁盘。spark的优点:中间结果可以在内存中,而MapReduce中间结果落磁盘。spark是hadoop的一个替代方案,但是它只能替代MapReduce原创 2017-02-06 22:52:50 · 393 阅读 · 0 评论 -
SparkStreaming自适应上游kafka topic partition数目变化
背景Spark Streaming 作业在运行过程中,上游 topic 增加 partition 数目从 A 增加到 B,会造成作业丢失数据,因为该作业只从 topic 中读取了原来的 A 个 partition 的数据,新增的 B-A 个 partition 的数据会被忽略掉。思考过程为了作业能够长时间的运行,一开始遇到这种情况的时候,想到两种方案:感知上游 to转载 2017-02-09 17:41:21 · 1443 阅读 · 0 评论 -
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇文章来源:http://tech.meituan.com/spark-tuning-basic.html李雪蕤 ·2016-04-29 14:00前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应转载 2017-02-09 09:26:58 · 282 阅读 · 0 评论 -
基于Spark的公安大数据实时运维技术实践
文章来源:https://www.iteblog.com/archives/1956.html公安行业存在数以万计的前后端设备,前端设备包括相机、检测器及感应器,后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统,数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满转载 2017-02-09 08:36:52 · 1029 阅读 · 0 评论 -
带有状态的SparkStreaming单词计数程序
在另外一篇《SparkStreaming的入门级程序:WordCount》文章中,只是统计每一个批次的数据,是不带状态的单词计数程序,使用的是reduceByKey()方法,它只能统计当前批次的单词个数,而不会累加上一个批次的单词个数;而带有状态的单词计数程序会累加上个批次的单词个数,它使用的则是updateStateByKey()方法。在pom.xml文件中引入一下依赖:原创 2017-02-07 18:15:21 · 1122 阅读 · 0 评论 -
跟天齐老师学Spark(8)--Spark RDD综合练习
综合练习:通过基站信息计算家庭地址和工作地址需求:根据手机信号来计算其所在的位置手机一开机,就会和附近的基站建立连接,建立连接和断开连接都会被记录到服务器上的日志,所以即使没手机有开启网络或者GPS,也可以定位手机所在的位置。基站都有一定的辐射范围,并且根据信号强度有不同的信号级别,比如2G、3G和4G信号。我们虽然不知道手机用户所在的具体位置,但是我们知道基站的位置,原创 2017-02-06 23:09:50 · 2427 阅读 · 0 评论 -
跟天齐老师学Spark(7)--关于Spark的RDD
关于spark的RDD:关于RDD,可以查看官方文档,可以看作者的论文,也可以看spark源码中关于RDD的注释。按Ctrl+N快捷键,搜索RDD,进入源码,如果没有关联源码,在IDEA中右上角会有一个提示:"Attach Sources".在IDEA中关联spark的源码,首先解压下载好的spark源码包(spark-1.6.2.tgz),然后在IDEA中选择右上角的Atta原创 2017-02-06 23:06:19 · 436 阅读 · 0 评论 -
跟天齐老师学Spark(6)--Spark的常用算子介绍
spark的常用算子介绍:Resilient(弹性且可复原) Distributed(分布式) Datasets(数据集) (RDDs)我们以前学的scala的原生方法都是数组或者集合上定义的,它只能操作单机。而spark中的方法都是定义在RDD上的,它们操作的是集群。spark的方法有两类操作:一种是:Transformations,它是lazy的,不会触发任务的执行原创 2017-02-06 23:04:38 · 1104 阅读 · 0 评论 -
跟天齐老师学Spark(5)--使用IDEA开发Spark程序
使用IDEA开发spark程序:补全的快捷键:"Ctrl+Alt+v"下面是提交spark程序到spark集群上运行的命令:spark/bin/spark-submit \--master spark://hadoop01:7077,spark://hadoop02:7077 \--executor-memory 512m --total-executor-cores 7原创 2017-02-06 23:00:50 · 719 阅读 · 0 评论 -
跟天齐老师学Spark(4)--Spark整合hdfs
spark整合hdfs:需求:从hdfs中读取数据,用spark计算,再写到hdfs中。启动zookeeper;启动hadoop的hdfs;然后启动spark(我们这里就不启动高可用集群了,这里只启动一个Master);向spark集群提交任务;spark-shell中写的程序仅仅是做实验;实际开发中,是先在IDE中开发spark程序,然后打包,提交到集群。然后用原创 2017-02-06 23:00:02 · 663 阅读 · 0 评论 -
跟天齐老师学Spark(3)--搭建Spark环境
搭建spark环境(伪分布式,在虚拟机上用一台机器来编写一个spark程序):Spark解压就能用。首先spark环境,首先要按照jdk,但可以不用按照scala环境。下载的spark最好是和hadoop版本匹配的spark版本,比如:spark-1.6.2-bin-hadoop2.6.tgz;需要自己使用maven来编译(后面会讲)。使用bin目录下的spark-sh原创 2017-02-06 22:53:35 · 639 阅读 · 0 评论 -
跟天齐老师学Spark(1)--Spark简介
spark官网:http://spark.apache.orgSpark其实是一个大数据计算引擎,只能解决计算的问题,它需要依赖数据的存储系统;Spark不会取代Hadoop,因为Hadoop不仅是解决了计算的问题,它还解决了存储的问题;spark是apache旗下的一个开源框架。它的logo:快如闪电的一个集群。用来做大规模的数据计算处理。在2016年7月出来spark-原创 2017-02-06 22:51:10 · 354 阅读 · 0 评论 -
Flume+Spark+Hive+Spark SQL离线分析系统
目录(?)[+]前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark!当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统也有很好的兼容性;Spark Sql,可以让用户通过标准SQL语句操作从不同的数据源转载 2017-02-09 17:46:34 · 1326 阅读 · 0 评论