- 博客(3)
- 资源 (7)
- 收藏
- 关注
翻译 Spark SQL and DataFrame Guide(1.4.1)——之Data Sources
Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。
2015-07-30 20:15:17 3315
翻译 Spark SQL and DataFrame Guide(1.4.1)——之DataFrames
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames
2015-07-29 16:02:52 4612
原创 在spark上运行独立程序(Self-Contained Applications)
在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的 sc = SparkContext("local","Simp
2015-07-05 16:27:57 2224 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人