大数据
文章平均质量分 83
唯余木叶下弦声
数据挖掘工程师,计算机技术专业硕士
展开
-
(六)Spark大数据开发实战:豆瓣电影数据处理与分析(scala版)
本项目对电影信息数据进行处理和分析,实现了对电影演员、电影类型、上映时间等多维度的统计分析。同时考察了DataFrame操作、Spark SQL操作、聚合与数据转换、窗口函数、日期和时间处理、数据清洗、写入写出等等。由于Scala是直接运行在JVM上,因此它的运行速度通常比Python快。经测试,本项目的scala版本代码运行总用时22.8秒,而python版本代码运行总用时24.6秒,scala运行比python稍快一点,总的来说相差不大,在大规模数据量的项目中,scala的优势会更加明显。原创 2024-11-12 10:03:55 · 3082 阅读 · 0 评论
-
Spark区分应用程序 Application、作业Job、阶段Stage、任务Task
在Apache Spark中,有几个核心概念用于描述应用程序的执行流程和组件,包括应用程序 Application、作业Job、阶段Stage、任务Task原创 2024-12-05 15:21:17 · 533 阅读 · 0 评论 -
PySpark3:pyspark.sql.functions常见的60个函数
PySpark3:pyspark.sql.functions常见的60个函数原创 2024-11-20 15:28:00 · 1154 阅读 · 0 评论 -
PySpark3:Row对象常见操作以及Row、RDD、DataFrame互相转换
Row对象常见操作以及Row、RDD、DataFrame互相转换原创 2024-11-15 16:37:53 · 407 阅读 · 0 评论 -
(五)Spark大数据开发实战:豆瓣电影数据处理与分析(python版)
Spark大数据开发实战:灵活运用PySpark常用DataFrame API。本文数据来自采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别所有电影的相关信息并存储为csv文件。原创 2024-10-31 15:29:05 · 1158 阅读 · 0 评论 -
(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测
Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。原创 2024-03-17 01:45:42 · 1312 阅读 · 0 评论 -
(三)PySpark3:SparkSQL40题
SQL笔试经典40题,使用PySpark SQL代码实现。原创 2024-03-15 15:35:18 · 1386 阅读 · 0 评论 -
(二)PySpark3:SparkSQL编程
总的来说,Spark SQL是一个功能强大的工具,适合于处理大规模数据集和进行复杂的数据分析。Spark SQL能够访问多种数据源,包括本地数据集、HDFS、Hive、HBase等,并且通过集成类RDD、类Excel、类SQL的数据处理操作,增强了数据处理的易用性和多样性。原创 2024-03-07 14:44:34 · 1800 阅读 · 0 评论 -
(一)PySpark3:安装教程及RDD编程
Apache Spark是一个用于大数据处理的开源分布式计算框架,而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能,使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择:PySpark: 使用简洁而易学的Python作为编程语言,这使得PySpark学习难度大大降低。Spark-Scala: 使用Scala作为主要编程语言。原创 2024-01-30 10:51:18 · 2657 阅读 · 0 评论 -
Linux CentOS安装Hadoop3.1.3(单机版)详细教程
Hadoop是一个开源的分布式计算框架,主要用于大数据处理。它包括HDFS分布式文件系统和MapReduce计算模型,能够高效地存储和处理大规模数据集,广泛用于数据挖掘、分析和机器学习。原创 2024-08-30 13:48:42 · 2316 阅读 · 2 评论 -
Python连接Kafka收发数据等操作
Apache Kafka 是一个开源流处理平台,由 LinkedIn 开发,并于 2011 年成为 Apache 软件基金会的一部分。Kafka 广泛用于构建实时的数据流和流式处理应用程序,它以高吞吐量、可扩展性和容错性著称。kafka-python 是一个用 Python 编写的 Apache Kafka 客户端库。原创 2024-09-24 17:00:03 · 1061 阅读 · 0 评论 -
HDFS常用命令及Python连接HDFS操作
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop集群中的一部分,用于存储大量数据,并运行在商用硬件集群上。原创 2024-09-09 09:56:29 · 1151 阅读 · 0 评论
分享