Spark
文章平均质量分 91
分享关于Spark在大数据生态的一些应用
大数据小禅
致力于大数据与人工智能算法领域,数据科学硕士,华为认证云享专家,阿里云专家博主,大数据开发工程师,期待与你共同学习成长
展开
-
【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户
Spark SQL是Apache Spark的一个模块,提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrame API来查询和操作数据,同时还支持使用Spark的分布式计算引擎进行高效的并行计算。Spark SQL支持多种数据源,包括Hive、JSON、Parquet、Avro、ORC等,这些数据源可以通过DataFrame API或SQL语句进行查询和操作。同时,Spark SQL还提供了一些高级功能,如窗口函数、聚合函数、UDF等,以满足更复杂的数据分析需求。原创 2023-03-27 12:51:36 · 4190 阅读 · 4 评论 -
【精通Spark系列】Spark算子大合集,一文掌握spark中的常用转换与行动算子
RDD 中的算子从功能上分为两大类1.Transformation(转换算子) 它会在一个已经存在的 RDD 上创建一个新的 RDD,这也使得RDD之间存在了血缘关系与联系2.Action(动作算子) 执行各个分区的计算任务, 结果返回到 Driver 中特点1.Spark 中所有的 Transformations 是 惰性 的, 不会立即执行获得结果. 只会记录在数据集上要应用的操作.当需要返回结果给 Driver 时, 才会执行这些操作, 这个特性叫做 惰性求值。原创 2023-01-09 23:39:24 · 2067 阅读 · 10 评论 -
【精通Spark系列】弹性分布式数据集RDD快速入门篇
本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容,,内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,原创 2022-10-03 23:05:46 · 2080 阅读 · 4 评论 -
【精通Spark系列】一文搞懂Spark的运行架构,文末附带大数据Spark的学习路线
???? 作者 :“大数据小禅”???? **文章简介 **:本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容,,内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,Spark专栏地址.欢迎小伙伴们订阅???????? **文章源码获取 **:与本文相关的安装包,大数据交流群,小伙伴们可以关注文章底部的公众号,点击“联系我”备注对应内容获取。???? 欢迎小伙伴们 点赞????、收藏⭐原创 2022-01-01 15:38:10 · 4269 阅读 · 35 评论 -
【精通Spark系列】万事开头难?本篇文章让你轻松入门Spark
???? 作者 :“大数据小禅”???? **文章简介 **:本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容,,内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,Spark专栏地址.欢迎小伙伴们订阅???????? **文章源码获取 **:与本文相关的安装包,大数据交流群,小伙伴们可以关注文章底部的公众号,点击“联系我”备注对应内容获取。???? 欢迎小伙伴们 点赞????、收藏⭐原创 2021-12-06 00:05:14 · 3975 阅读 · 16 评论 -
从数据库底层说起,探究用户画像系统的储存该如何选型
1.什么是用户画像在给用户画像做定义之前,我们先来了解一下什么是推荐系统场景:在现在的互联网时代,网上购物已经称为常态,当我们在各大电商平台购物的时候,不难发现这样一个现象。当你搜索某个上面进行浏览的时候,点击目标商品,之后返回到首页,很大概率你就可以发现,你刚才搜索的商品的相关产品已经在首页的推荐栏目。例如,你购买了一件护肤品面霜,回到首页推荐处,系统可能就会给你推荐口红或者相关护肤品。又例如当你搜索用户画像书籍的时候,推荐栏目就会出现有关用户画像的书籍。这些功能就叫做推荐,而完成这些行为的即为推荐原创 2021-10-10 13:27:53 · 2861 阅读 · 16 评论 -
2021最全大数据面试题汇总---hadoop篇,附答案!
大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer!1.hadoop面试题合集1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。2)Flume.原创 2021-07-30 11:14:03 · 6128 阅读 · 6 评论 -
建议收藏!详细解析如何对spark进行全方位的调优
前言:Apache Spark 是专为大数据处理而设计的快速的计算引擎,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是—spark的输出结果可以保存在内存中,不用再进行HDFS的读写,因此Spark被广泛用于机器学习跟需要迭代计算类的算法。但是面对大量需要处理的数据,要让Spark稳定快速的运行,这就需要对Spark进行全方位的调优,从而在工作中拥有更高的处理效率。本篇文章主要对Spark如何进行全方位的调优进行阐述主要从下面几点对Spark进行调优:1.避原创 2021-06-12 23:05:22 · 1739 阅读 · 3 评论