需求
将DataFrame中的StructType类型字段下的所有内容转换为Json字符串。
spark版本: 1.6.1
思路
- DataFrame有toJSON方法,可将每个Row都转为一个Json字符串,并返回RDD[String]
- DataFrame.write.json方法,可将数据写为Json格式文件
跟踪上述两处代码,发现最终都会调用Spark源码中的org.apache.spark.sql.execution.datasources.json.JacksonGenerator类,使用Jackson,根据传入的StructType、JsonGenerator和InternalRow,生成Json字符串。
开发