![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
xinlangtianxia
这个作者很懒,什么都没留下…
展开
-
在使用Spark Streaming向HDFS中保存数据时,文件内容会被覆盖掉的解决方案
我的Spark Streaming代码如下所示:全选复制放进笔记val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DISK_SER_2)val words = lines.filter(examtep(_))words.foreachRDD(exam(_))//some转载 2016-05-18 00:42:59 · 7108 阅读 · 0 评论 -
Spark在美团的实践
前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎转载 2016-07-03 10:27:13 · 2414 阅读 · 0 评论 -
spark2.0.0发布
2016年07月26日 spark2.0.0发布官网上说:我们是很高兴的宣布这spark2.0.0是可以使用,了解发行此版本的说明和了解新的功能,并且你也是可以下载使用这个版本!我们读官网上的说明了解到:它是2.x版本线上的第一个版本。主要的更新是API可用性 SQL2003的支持 性能提升 structured streaming R中支持UD原创 2016-07-28 10:54:08 · 664 阅读 · 0 评论 -
spark2.1.0发布了
2016年12月28日发布此版本更改默认scala版本是Scala 2.11官网看到Spark runs on Java 7+, Python 2.6+/3.4+ and R 3.1+. For the Scala API, Spark 2.1.0uses Scala 2.11. You will need to use a compatible Scala version(2.1原创 2017-02-17 16:37:49 · 516 阅读 · 0 评论 -
Flume+Kafka+Storm+Redis实时分析系统基本架构
今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一 个简单的入门级架构,实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构, 消费数据时如何处理重复数据或者丢失数据等问题,根据不同的业务场景,对数据的可靠性要求以及系统转载 2017-02-09 14:08:55 · 583 阅读 · 0 评论 -
spark生态圈整体技术架构图
转载 2017-02-27 09:36:56 · 1276 阅读 · 0 评论