在用 Spark 处理数据的时候,经常需要给全量数据增加一列自增 ID 序
号,在存入数据库的时候,自增 ID 也常常是一个很关键的要素。
在 DataFrame 的 API 中没有实现这一功能,所以只能通过其他方式实
现,或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。
下面呢就介绍三种实现方式。
创建 DataFrame 对象
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(
[
{"name": "Alice", "age": 18},
{"name": "Sitoi", "age": 22},
{"name": "Shitao", "age": 22},
{"name": "Tom", "age": 7},
{"name": "De", "age": 17},
{"name": "Apple", "age": 45}
]
)
df.show()
输出:
+---+------+
|age| name|
+---+------+
| 18| Alice|
| 22| Sitoi|
| 22|Shitao|
| 7| Tom|
| 17| De|
| 45| Apple|
+---+------+
1**,monotonically_inc