Spark
ZenGeek
代码乃需求之腿
展开
-
Spark实战(1) 配置AWS EMR 和Zeppelin Notebook
SparkContext和SparkSession的区别,如何取用?SparkContext:在Spark 2.0.0之前使用通过资源管理器例如YARN来连接集群需要传入SparkConf来创建SparkContext对象如果要使用SQL,HIVE或者Streaming的API, 需要创建单独的Context val conf = new SparkConf() .setA...原创 2018-10-31 17:40:41 · 1245 阅读 · 0 评论 -
Spark实战(2) DataFrame基础之创建DataFrame
之前,RDD语法占主导,但是比较难用难学.现在,有了DataFrame,更容易操作和使用spark.文章目录创建DataFrame创建DataFrame(指定Schema)创建DataFramefrom pyspark.sql import SparkSession# 新建一个sessionspark = SparkSession.builder.appName('Basics')...原创 2018-10-31 18:15:22 · 776 阅读 · 0 评论 -
Spark实战(3) DataFrame基础之行列操作和SQL
文章目录行列操作SQL操作行列操作df['age'] # I only get a column objectdf.select('age').show() # I get a datafram with a column that we could use with show() method# see the first two row elementsdf.head(2) # r...原创 2018-10-31 18:40:59 · 741 阅读 · 0 评论 -
Spark实战(4) DataFrame基础之数据筛选
文章目录filter写法一filter写法二条件符号获取结果filter写法一from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('ops').getOrCreate()df = spark.read.csv('appe_stock.csv',inferSchema = True, heade...原创 2018-10-31 19:09:39 · 10234 阅读 · 0 评论 -
Spark实战(5) DataFrame基础之GroupBy和Aggregate
文章目录groupBy()AggregationAggregation FunctiongroupBy()from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('aggs').getOrCreate()df = spark.read.csv('sales_info.csv', inferSche...原创 2018-10-31 19:54:26 · 7858 阅读 · 0 评论 -
Spark实战(5) DataFrame基础之处理缺失值
Drop Missing Valuefrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('aggs').getOrCreate()df = spark.read.csv('sales_info.csv', inferSchema = True, header = True)df.printSche...原创 2018-10-31 21:37:51 · 8333 阅读 · 0 评论 -
Spark之RDD操作
// 读取文件,压缩文件和路径都可以val lines = sc.textFile("hdfs://localhost:9000/...") // hdfsval textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") // local// 从driver的内存中读取val array = Ar...原创 2018-11-01 08:00:10 · 237 阅读 · 0 评论