Spark学习五：spark sql

最新推荐文章于 2023-04-08 20:18:30 发布

forrestxingyunfei

最新推荐文章于 2023-04-08 20:18:30 发布

阅读量3.7k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/youfashion/article/details/51348759

版权

spark 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Spark学习五：spark sql

标签（空格分隔）： Spark

Spark学习五spark sql

一，概述：

001.PNG-100.9kB

002.PNG-25.9kB

001.PNG-139.3kB

二，Spark的发展历史

001.PNG-95.3kB

003.PNG-106.6kB

002.PNG-93kB

005.PNG-370.8kB

004.PNG-197kB

三，Spark sql和hive对比

001.PNG-158.8kB

002.PNG-139.7kB

003.PNG-109.7kB

四，spark sql 架构

004.PNG-90.6kB

五，sprk sql访问hive数据

001.PNG-315.7kB

002.PNG-14.4kB

hive-site.xml需要拷贝到spark的conf目录下面

启动方式一：

//启动应用
bin/spark-shell --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar --master local[2]

sqlContext.sql("show databases").show()

002.PNG-14.4kB

sqlContext.sql("use default").show()

sqlContext.sql("show tables").show()

启动方式二：

//启动应用
bin/spark-sql --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar --master local[2]

show databases;

002.PNG-78.8kB

//缓存
cache table emp;
//取消缓存
uncache table emp;

003.PNG-47.8kB

六，catalyst

001.PNG-542.5kB

002.PNG-61.1kB

003.PNG-74.3kB

七,thriftserver

启动服务

sbin/start-thriftserver.sh --master local[2] --driver-class-path jars/mysql-connector-java-5.1.27-bin.jar

启动beeline客户端

bin/beeline
beeline> !connect jdbc:hive2://localhost:10000

001.PNG-99kB

八，Dataframe

001.PNG-97.9kB

002.PNG-255.6kB

003.PNG-215kB

004.PNG-233.3kB

005.PNG-257.1kB

006.PNG-239.5kB

007.PNG-270.6kB

008.PNG-238.5kB

009.PNG-161.6kB

截图06.png-143.5kB

截图07.png-299.2kB

001.PNG-157.3kB

002.PNG-66.7kB

九，加载外部数据源

1，加载json数据

val json_df=sqlContext.jsonFile("hdfs://study.com.cn:8020/spark/people.json")

json_df.show()

2,加载hive数据

sqlContext.table("default").show()

3,加载parquet格式数据

val parquet_df=sqlContext.jsonFile("hdfs://study.com.cn:8020/spark/users.parquet")
parquet_df.show()

4,jdbc方式获取数据

val df = sqlContext.jdbc("jdbc:mysql://localhost:3306/db_0306?user=root&password=123456", "my_user")

val mysql_df = sqlContext.load("jdbc", Map("url" -> "jdbc:mysql://localhost:3306/db_0306?user=root&password=123456","dbtable" -> "my_user"))

5,读取text file
第一种方式：

case class Person(name:String,age:Int)
val people_rdd = sc.textFile("spark/sql/people.txt")
val rowRdd = people_rdd.map(x => x.split(",")).map(x => Person(x(0), x(1).trim.toInt))
val people_df=rowRdd.toDF()

第二种方式：

val people_rdd = sc.textFile("spark/sql/people.txt")
import org.apache.spark.sql._
val rowRdd = people_rdd.map(x => x.split(",")).map(x => Row(x(0), x(1).trim.toInt))

import org.apache.spark.sql.types._
val schema = StructType(Array(StructField("name",StringType, true), StructField("age", IntegerType, false)))

val rdd2df = sqlContext.createDataFrame(rowRdd, schema)

测试：

Spark SQL强大诞生了，

Hive Table
emp
MySQL Table
dept

针对上述两个表进行join，

val hive_emp_df = sqlContext.table("db_0228.emp")
val mysql_dept_df = sqlContext.jdbc("jdbc:mysql://localhost:3306/db_0306?user=root&password=123456", "tb_dept")
val join_df = hive_emp_df.join(mysql_dept_df, hive_emp_df("deptno") === mysql_dept_df("deptno"))
join_df.show

案例分析

SQLLogAnalyzer.scala

package com.ibeifeng.bigdata.spark.app

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}


/**
 * Created by XuanYu on 2016/4/17.
 */

object SQLLogAnalyzer {
  def main(args: Array[String]) {

    // create SparkConf instance
    val sparkConf = new SparkConf()
      .setAppName("SQLLogAnalyzer")
      .setMaster("local[2]")
    // create SparkContext instance
    val sc = new SparkContext(sparkConf)

    // create SQLcontext instance
    val sqlContext = new SQLContext(sc)
    import sqlContext.implicits._

    // ==============================================================
    // input files
    val logFile = "hdfs://bigdata-senior01.ibeifeng.com:8020/user/beifeng/apache.access.log" //

    //create rdd
    val accessLogs_df = sc.textFile(logFile)
      /**
       *  filter log datas
       */
      .filter(ApacheAccessLog.isValidateLogLine)
      /**
       * parse log
       */
      .map(log => ApacheAccessLog.parseLogLine(log))
      .toDF()

    accessLogs_df.registerTempTable("accessLogs")

    // cache
    accessLogs_df.cache()

// =======================================================================================

    // compute
    val avgContentSize = sqlContext.sql("select avg(contentSize) from accessLogs").first().get(0)
    val minContentSize = sqlContext.sql("select min(contentSize) from accessLogs").first().get(0)
    val maxcontentSize = sqlContext.sql("select max(contentSize) from accessLogs").first().get(0)

    // println
    println("Content Size Avg: %s, Min: %s , Max: %s".format(
      avgContentSize, minContentSize, maxcontentSize
    ))

    //
    accessLogs_df.unpersist()

    val avg_df = accessLogs_df.agg("contentSize" -> "avg")
    val min_df = accessLogs_df.agg("contentSize" -> "min")
    val max_df = accessLogs_df.agg("contentSize" -> "max")

    // println
    println(" === Content Size Avg: %s, Min: %s , Max: %s".format(
      avg_df.first().get(0),min_df.first().get(0),max_df.first().get(0)
    ))

    // ==============================================================

    // stop SparkContext
    sc.stop()
  }

}

forrestxingyunfei

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark学习五：spark sql

Spark学习五：spark sql标签（空格分隔）： SparkSpark学习五spark sql一概述二Spark的发展历史三Spark sql和hive对比四spark sql 架构五sprk sql访问hive数据六catalyst七thriftserver 八Dataframe九加载外部数据源Spark SQL强大诞生了一，概述：二，Spark的发展历史三，Spark
复制链接

扫一扫