PySpark DataFrame 添加自增 ID

最新推荐文章于 2024-01-22 11:25:21 发布

孤数不证

最新推荐文章于 2024-01-22 11:25:21 发布

阅读量3.5k

点赞数 5

本文链接：https://blog.csdn.net/weixin_43668299/article/details/103269810

版权

在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序

号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。

在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实

现，或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。

下面呢就介绍三种实现方式。

   创建 DataFrame 对象

  from pyspark.sql import SparkSession

  spark = SparkSession.builder.getOrCreate()

 df = spark.createDataFrame(
[
    {"name": "Alice", "age": 18},
    {"name": "Sitoi", "age": 22},
    {"name": "Shitao", "age": 22},
    {"name": "Tom", "age": 7},
    {"name": "De", "age": 17},
    {"name": "Apple", "age": 45}
]
)
df.show()

输出：

+---+------+
|age|  name|
+---+------+
| 18| Alice|
| 22| Sitoi|
| 22|Shitao|
|  7|   Tom|
| 17|    De|
| 45| Apple|
+---+------+

1**,monotonically_inc

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孤数不证

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
PySpark DataFrame 添加自增 ID

在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实现，或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。下面呢就介绍三种实现方式。创建 DataFrame 对象 from pyspark.sq...
复制链接

扫一扫