【面经】特斯拉大数据开发笔经

欢迎点击此处关注公众号。每天分享大数据开发面经。

特斯拉的大数据开发笔试 3 个题,两道 SQL 难度中规中矩,一道是工程题,没做过可能难顶。

题目是用 Spark 实现四个方法:

  • 前三个方法是读取 csv 文件,返回 DataFrame;
  • 第四个方法是对上述三个 DataFrame 进行 join;
  • 编程语言可选 Java 11、PySpark、Scala。
1.数据加载

spark.read.load 是加载数据的通用方法。

如果读取不同格式的数据,可以对不同的数据格式进行设定。

scala> spark.read.format("…")[.option("…")].load("…")
  • format(“…”):指定加载的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
  • load(“…”):在 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile” 格式下需要传入加载数据的路径。
  • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。

除此之外,也可以直接在文件上进行查询: 文件格式.文件路径。

scala> spark.sql("select * from json.`/opt/module/data/user.json`").show
2.保存数据

df.write.save 是保存数据的通用方法.

如果保存不同格式的数据,可以对不同的数据格式进行设定。

scala> df.write.format("…")[.option("…")].save("…")
  • format(“…”):指定保存的数据类型,包括 “csv”、“jdbc”、“json”、“orc”、“parquet” 和 “textFile”。
  • save (“…”):在 “csv”、“orc”、“parquet” 和 “textFile” 格式下需要传入保存数据的路径。
  • option(“…”):在 “jdbc” 格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable。
3.读取 csv 文件

Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为数据列。

df = spark.read.format("csv")	// 读取 csv 格式文件
		  .option("sep", ",")	// 设置读取文本时每个字段的分隔符,这里用 , 分隔
		  .option("inferSchema", "true")		// 自动推断类型
          .option("header", "true")		// 将 csv 文件第一行作为 DataFrame 的列名
	 	  .load("data/user.csv")		// 数据的路径

读取之后返回 DataFrame 类型。

4.SQL 操作

上述读取的 df 可以进行 join 操作。

在 spark 程序实际开发过程中遇到需要对文件内容做 Join 操作,使用 createOrReplaceTempView 方式将读取的文件创建临时表,然后通过 spark.sql() 方式利用 SQL语句 做 Join 操作。

// 用上述的 df 创建临时表,表名为 tempTable
df1.createOrReplaceTempView("tempTable1")
df2.createOrReplaceTempView("tempTable2")

// 直接可以用 SQL 操作
val resultDf = spark.sql("SELECT name FROM tempTable1 as t1 JOIN tempTable2 as t2 ON t1.id=t2.id")

// 返回结果
return resultDf
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值