PySpark学习笔记(1)

pySpark

一定要先构建SparkContext类对象作为执行入口

RDD

数据容器转成RDD对象 .parallelize()

如果要查看RDD里面有什么内容,需要用collect()方法

除了字符串和字典,其他都变成了列表

.testFile(路径) 数据输入 文件传入

rdd.Map(func)   传入的函数有返回值  还是rdd对象

只能对一个个元素进行处理

(T)-> (T) 传入和传出的参数是相同类型的

rdd.Map().Map().Map()。。。

Rdd.flatmap  解除嵌套

reduceByKey(func)  

Func:接受2个传入参数(类型要返回一个返回值,类型和传入要求一致)

KV型RDD 二元元组:元组里只有两个元素  会自动识别第一个为key进行分组

将所有相同key的第二个元素按照设定的函数两两计算

最后得到一个元组 第一个元素为key 第二个元素就是结果

如果不是二元元组,则从左到右开始,前两个先计算,得到结果再与后一个计算,直到最后

练习

计算文件中单词的出现数量

from pyspark import SparkConf, SparkContext
import os

os.environ["PYSPARK_PYTHON"] = "D:\\dev\\python\\python3.10.4\\python.exe"

conf: SparkConf = SparkConf().setAppName("test_spark_app")  # 一直是SparkConf对象

sc = SparkContext(conf=conf)

rdd = sc.textFile("D:\\dev\\python-learn\\word.txt")
rdd2 = rdd.flatMap(lambda x: x.split(" ")).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)

print(rdd2.collect())

sc.stop()

filter(func) 过滤元素  func返回bool值  true就输出 false就过滤掉

distinct()  去重 无需传参

sortBy()  排序   

练习

from pyspark import SparkConf, SparkContext
import json
import os

os.environ["PYSPARK_PYTHON"] = "D:\\dev\\python\\python3.10.4\\python.exe"

conf: SparkConf = SparkConf().setAppName("test_spark_app")  # 一直是SparkConf对象

sc = SparkContext(conf=conf)

rdd = sc.textFile("D:\\dev\\python-learn\\orders.txt")
data = rdd.flatMap(lambda x: x.split("|")).map(lambda x: json.loads(x))

city_rank = data.map(lambda x: (x['areaName'], int(x['money'])))\
          .reduceByKey(lambda x, y: x + y).sortBy(lambda x: x[1], ascending=False, numPartitions=1)
print("城市销售额排名:", city_rank.collect())

category = data.map(lambda x: x['category']).distinct()
print("全部城市商品类别:", category.collect())

beijing_category = data.map(lambda x: (x['areaName'], x['category'])).filter(lambda x: x[0] == "北京")\
                  .map(lambda x: x[1]).distinct()
print("北京市商品类别:", beijing_category.collect())

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值