SparkSQL
XiaodunLP
祝福自己.^_^
展开
-
基于SparkSql的日志分析实战
目录 日志数据内容 用户行为日志分析的意义 离线数据处理流程 需求分析 数据清洗 解析访问日志 使用github上的开源项目 对日志进行统计分析 统计最受欢迎的TOPN的视频访问次数 按照地市统计imooc主站最受欢迎的TOPN课程 按流量统计imooc主站最受欢迎的TOPN课程 调优点 EChart展示图形化界面 静态数据展示 动态数据展示 日志数据...原创 2019-02-21 16:26:16 · 1094 阅读 · 0 评论 -
Spark----SparkSQL用户自定义函数
UDF 通过spark.udf功能用户可以自定义函数。 用户自定义UDF函数 scala> val df = spark.read.json("examples/src/main/resources/people.json") df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> df....原创 2019-02-18 01:09:32 · 1031 阅读 · 0 评论 -
Spark----Spark SQL概述
Spark SQL概述 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spa...原创 2019-02-18 00:21:19 · 439 阅读 · 0 评论 -
Spark----RDD 、 DataFrames 和 DataSet的爱恨情仇
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看: RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。...原创 2019-02-18 00:37:27 · 237 阅读 · 0 评论 -
Spark----SparkSQL之SparkSession
SparkSession 是 Spark-2.0 引如的新概念。SparkSession 为用户提供了统一的切入点,来让用 户学习 Spark 的各项功能。 在 Spark 的早期版本中,SparkContext 是 Spark 的主要切入点,由于 RDD 是主要的 API,我 们通过 sparkContext来创建和操作 RDD。对于每个其他的 API,我们需要使用不同的 context。...原创 2019-02-18 00:44:09 · 577 阅读 · 0 评论 -
Spark----SparkSQL简单操作
SparkSession 前面我们已经介绍了SparkSession,这里我们在系统回顾一下,并做一些补充 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的...原创 2019-02-18 01:03:38 · 396 阅读 · 0 评论