大数据
文章平均质量分 94
唯余木叶下弦声
数据挖掘工程师,计算机技术专业硕士
展开
-
(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测
Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。原创 2024-03-17 01:45:42 · 1034 阅读 · 0 评论 -
(三)PySpark3:SparkSQL40题
SQL笔试经典40题,使用PySpark SQL代码实现。原创 2024-03-15 15:35:18 · 1017 阅读 · 0 评论 -
(一)PySpark3:安装教程及RDD编程
Apache Spark是一个用于大数据处理的开源分布式计算框架,而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能,使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择:PySpark: 使用简洁而易学的Python作为编程语言,这使得PySpark学习难度大大降低。Spark-Scala: 使用Scala作为主要编程语言。原创 2024-01-30 10:51:18 · 1316 阅读 · 0 评论