【面经】特斯拉大数据开发笔经

和风与影

已于 2022-09-19 13:42:42 修改

阅读量837

点赞数

分类专栏：面试文章标签： spark scala 大数据

于 2022-09-19 09:44:58 首次发布

本文链接：https://blog.csdn.net/weixin_45545090/article/details/126927568

版权

面试专栏收录该内容

46 篇文章 8 订阅

订阅专栏

欢迎点击此处关注公众号。每天分享大数据开发面经。

特斯拉的大数据开发笔试 3 个题，两道 SQL 难度中规中矩，一道是工程题，没做过可能难顶。

题目是用 Spark 实现四个方法：

前三个方法是读取 csv 文件，返回 DataFrame；
第四个方法是对上述三个 DataFrame 进行 join；
编程语言可选 Java 11、PySpark、Scala。

1.数据加载

spark.read.load 是加载数据的通用方法。

如果读取不同格式的数据，可以对不同的数据格式进行设定。

scala> spark.read.format("…")[.option("…")].load("…")

format(“…”)：指定加载的数据类型，包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
load(“…”)：在 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile” 格式下需要传入加载数据的路径。
option(“…”)：在 “jdbc” 格式下需要传入 JDBC 相应参数，url、user、password 和 dbtable。

除此之外，也可以直接在文件上进行查询: 文件格式.文件路径。

scala> spark.sql("select * from json.`/opt/module/data/user.json`").show

2.保存数据

df.write.save 是保存数据的通用方法.

如果保存不同格式的数据，可以对不同的数据格式进行设定。

scala> df.write.format("…")[.option("…")].save("…")

format(“…”)：指定保存的数据类型，包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
save (“…”)：在 “csv”、“orc”、“parquet” 和 “textFile” 格式下需要传入保存数据的路径。
option(“…”)：在 “jdbc” 格式下需要传入 JDBC 相应参数，url、user、password 和 dbtable。

3.读取 csv 文件

Spark SQL 可以配置 CSV 文件的列表信息，读取 CSV 文件，CSV 文件的第一行设置为数据列。

df = spark.read.format("csv")	// 读取 csv 格式文件
		  .option("sep", ",")	// 设置读取文本时每个字段的分隔符，这里用 , 分隔
		  .option("inferSchema", "true")		// 自动推断类型
          .option("header", "true")		// 将 csv 文件第一行作为 DataFrame 的列名
	 	  .load("data/user.csv")		// 数据的路径

读取之后返回 DataFrame 类型。

4.SQL 操作

上述读取的 df 可以进行 join 操作。

在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作，使用 createOrReplaceTempView 方式将读取的文件创建临时表，然后通过 spark.sql() 方式利用 SQL语句做 Join 操作。

// 用上述的 df 创建临时表，表名为 tempTable
df1.createOrReplaceTempView("tempTable1")
df2.createOrReplaceTempView("tempTable2")

// 直接可以用 SQL 操作
val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")

// 返回结果
return resultDf