一下内容来源于DT大数据梦工厂:
DT大数据梦工厂联系方式:
新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark
博客:http://.blog.sina.com.cn/ilovepains
SparkSQL下的Parquet的使用、
实践一、 Spark SQL下的parquest最佳实践
1、过去整个业界对大数据的发呢系的技术栈的pipeline一般分为以下2种方式:
a)Data Source -->HDFs-->MR/hive/spark(相当于ETL)-HDFS parquet----Spar