SparkSQL
子清.
这个作者很懒,什么都没留下…
展开
-
练习:Spark数据分析
文章目录1. 项目需求用例1:数据清洗用例2:用户留存分析用例3:活跃用户分析 数据集下载:https://wwa.lanzous.com/iPrPVijmtle 1. 项目需求 使用Spark完成下列日志分析项目需求: 日志数据清洗 用户留存分析 活跃用户分析 活跃用户地域信息分析 用户浏览深度分析 用例1:数据清洗 读入日志文件并转化为RDD[Row]类型 按照Tab切割数据 过滤掉字段数量少于8个的 对数据进行清洗 按照第一列和第二列对数据进行去重 过滤掉状态码非200 过滤掉e原创 2020-11-19 18:57:55 · 443 阅读 · 1 评论 -
SparkSQL项目练习
文章目录1 准备数据2 需求:各区域热门商品Top32.1 需求简介2.2 思路分析2.3 代码实现 1 准备数据 本文所需的数据 我们这次Spark-sql操作所有的数据均来自 Hive,首先在Hive中创建表,并导入数据。一共有3张表: 1张用户行为表,1张城市表,1 张产品表 CREATE TABLE `user_visit_action`( `date` string, `user_id` bigint, `session_id` string, `page_id` bigint,原创 2020-11-18 19:00:19 · 737 阅读 · 0 评论 -
Spark SQL详解入门!
文章目录第1章 Spark SQL概述1.1 什么是Spark SQL1.2 Spark SQL的特点1.2.1 易整合1.2.2 统一的数据访问方式1.2.3 兼容Hive1.2.4 标准的数据连接1.3 什么是DataFrame1.4 什么是DataSet第2章 Spark SQL编程2.1 SparkSession新的起始点2.2 DataFrame2.2.1 创建DataFrame2.2.2 SQL风格语法2.2.3 DSL风格语法2.2.4 RDD转换为DataFrame2.2.5 DataFra原创 2020-11-17 23:18:44 · 2824 阅读 · 0 评论