大数据分析与预测
文章平均质量分 73
如是Rushy
研究方向:优化理论与近似算法,运筹学,数据科学与工程
展开
-
企业spark案例 —— 出租车轨迹分析(2)
任务描述本关任务:使用SparkSQL完成数据分析。相关知识为了完成本关任务,你需要掌握:如何使用SparkSQL进行数据分析FastJson 简述JSON 协议使用方便,越来越流行,JSON 的处理器有很多,这里我介绍一下 FastJson,FastJson 是阿里的开源框架,被不少企业使用,是一个极其优秀的Json框架,Github地址:FastJson 。FastJson 优点FastJson 数度快,无论序列化和反序列化,都是当之无愧的fast功能强大(支持普通JDK类包括任意Ja原创 2021-10-22 16:43:55 · 1718 阅读 · 0 评论 -
企业spark案例 —— 出租车轨迹分析(1)
企业spark案例 —— 出租车轨迹分析仅供学习交流使用任务描述本关任务:将出租车轨迹数据规整化,清洗掉多余的字符串。相关知识为了完成本关任务,你需要掌握:1.如何使用 SparkSQL 读取 CSV 文件,2.如何使用正则表达式清洗掉多余字符串。SparkSQL 读取 CSVval spark = SparkSession.builder().appName("Step1").master("local").getOrCreate()spark.read.option("header",原创 2021-10-22 16:42:54 · 3365 阅读 · 1 评论 -
Spark算子 - Python (二)
仅供交流学习使用!第6关:Transformation - sortBy100任务要求参考答案评论4任务描述相关知识 sortBy sortBy 案例编程要求测试说明任务描述本关任务:使用 Spark 的 SortBy 算子按照相关需求完成相关操作。相关知识为了完成本关任务,你需要掌握:如何使用 sortBy 算子。sortBysortBy 函数是在 org.apache.spark.rdd.RDD 类中实现的,它的实现如下: def sortBy原创 2021-10-22 16:16:01 · 2676 阅读 · 0 评论 -
Spark算子 - Python (一)
一、理论基础Spark的算子可分为:Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。Action行动算子:这类算子会触发SparkContext提交Job作业。Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。第1关:Transformation - map任务描述原创 2021-10-22 16:11:17 · 7077 阅读 · 0 评论 -
spark RDD编程 第3关:求平均值
任务描述本关任务:编写Spark独立应用程序实现求平均值。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,这个RDD里原创 2021-10-22 15:49:41 · 6023 阅读 · 0 评论 -
spark RDD编程 第2关:整合排序
任务描述本关任务:编写Spark独立应用程序实现整合排序。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,这个RDD里原创 2021-10-22 15:45:33 · 3982 阅读 · 0 评论 -
spark RDD编程 第1关:数据去重
Spark RDD编程初级实践(一)任务描述本关任务:编写Spark独立应用程序实现数据去重。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成原创 2021-10-22 15:43:12 · 4296 阅读 · 0 评论