pyspark对字段加前缀，拼接字符串

攻城狮Kevin

已于 2023-05-30 18:22:02 修改

阅读量742

点赞数

文章标签： python spark

于 2023-05-30 18:19:58 首次发布

本文链接：https://blog.csdn.net/wx1528159409/article/details/130954366

版权

在Pyspark中，当`main_task_id`字段值为0时，需在`sub_task_id`前添加check_前缀。正确做法是使用`withColumn`，结合`when`和`otherwise`函数以及`concat`和`lit`来实现。错误的做法是直接尝试在字段上拼接字符串，这会导致`AnalysisException`异常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码逻辑：在df中，当字段main_task_id为"0"时，则对字段sub_task_id加前缀"check_"，否则取其本身的值

正确代码如下：

df2 = df.withColumn("sub_task_id", when(col("main_task_id") == "0", concat(lit('check_'), col("sub_task_id"))).otherwise(col("sub_task_id")))

通过concat()函数进行字段拼接，通过lit("check_")构建一个字面值列

错误代码如下：

concat('check_', col("sub_task_id"))

直接对字段拼接字符串，会报错pyspark.sql.utils.AnalysisException: u"cannot resolve '`check_`' given input columns:

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

攻城狮Kevin

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用python对数据库，云平台，oracle，aws，es导入导出实战

shiter编写程序的艺术

04-03

2167

Spark读写OSS并使用OSS Select来加速查询

黑马程序员广州中心的专栏

11-12

774

Spark读写OSS 基于这篇文章搭建的CDH6以及配置，我们来使Spark能够读写OSS(其他版本的Spark都是类似的做法，不再赘述)。由于默认Spark并没有将OSS的支持包放到它的CLASSPATH里面，所以我们需要执行如下命令下面的步骤需要在所有的CDH节点执行进入到$CDH_HOME/lib/spark目录, 执行如下命令 [root@cdh-master spark...

参与评论您还未登录，请先登录后发表或查看评论

pyspark系列--字符串函数

热门推荐

振裕

03-23

1万+

字符串函数 1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.functions import concat, concat_ws df = spark.createDataFrame([('abcd','123')], ['s',...

pyspark之字符串函数操作（五）

人生百态361

02-28

2849

1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.functions import concat, concat_ws df = spark.createDataFrame([('abcd','123')], ['s', 'd']) # 1.直接拼接...

concat_ws(sep, *cols)和concat(*cols) pyspark.sql.functions使用详解

qq_34669699的博客

02-17

587

concat(*cols)和concat_ws(sep, *cols)使用

Spark-自定义累加器-进行字符串拼接（代码及详细实现步骤）

chun的博客

09-23

1475

看longAccumulator()方法源码里是val acc = new LongAccumulator然后用register(acc)在Spark中注册了累加器，进入LongAccumulator，可以看到继承了AccumulatorV2[jl.Long, jl.Long],根据LongAccumulator来实现自定义累加器实现类 //1.继承父类AccumulatorV2[IN，OUT]...

PySpark | SparkSQL入门 | DataFrame入门

liujiesxs的博客

06-28

1654

SparkSQL中的DataFrame的入门和操作

【顺序串算法高级技巧】：提升性能的10大技术

!... # 摘要本文综述了字符串处理算法的基础、优化策略、高效匹配...接着，对高效的字符串匹配技术如KMP算法、BM算法和Rabin-Karp算法进行解析和优化。高级字符串处理算法包括排序、搜索、编辑距离计算和哈希技术，这些技

2023年大数据面试通关文牒系列篇

AuZn的博客

06-20

637

区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。

spark 分组后字符串拼接

tangyuhui

08-06

6562

select concat_ws(',',collect_set(service_id)) from serviceexp_rawdata_mdn_starid_mapping_info_all group by customer_id limit 10;

Spark SQL自定义函数案例（拼接字符串）

weixin_43648241的博客

08-21

2893

实现一个功能,拼接字符串,传入的第一个参数是分隔符 my_concat_ws(",",f1,f2,f3) 结果f1,f2,f3

pyspark 合并DataFrame的两个字段

sijin_190527的博客

11-30

746

df_new = df.withColumn('field_new',F.array(df['field_1'],df['field_2'])) #field_new字段输出结果 ['qqq', 'www']

python pandas Dataframe 多列拼接，列拼接字符串

u012534143的博客

07-12

5907

python pandas Dataframe 多列拼接，列拼接字符串

python给一列数据增加前缀,如何在python / pyspark数据框的所有列中添加后缀和前缀...

weixin_29866423的博客

12-22

397

I have a data frame in pyspark with more than 100 columns. What I want to do is for all the column names I would like to add back ticks(`) at the start of the column name and end of column name.For ex...

python学习之字符串拼接的四种方法

分享型博主

02-07

6548

忘了在哪看到一位编程大牛调侃，他说程序员每天就做两件事，其中之一就是处理字符串。相信不少同学会有同感。在Python中，我们经常会遇到字符串的拼接问题，几乎任何一种编程语言，都把字符串列为最基础和不可或缺的数据类型。而拼接字符串是必备的一种技能。今天，一起来学习Python拼接字符串的四种方法。这种方式最常用、直观、易懂，是入门级的实现方式。但是，新入门编程的同学容易犯错，他们不知道字符串是不可变类型，新的字符串会独占一块新的内存，而原来的字符串保持不变。上例中，拼接前有两段字符串，拼接后实际有三段字符串

concat函数_pyspark系列--自定义函数

weixin_39716971的博客

11-24

1001

自定义函数 1. 概览2. 自定义函数的一般流程3. 简单的自定义函数4. 自定义函数进阶5.pandas-udf自定义函数1. 概览自定义函数的重点在于定义返回值类型的数据格式，其数据类型基本都是从from pyspark.sql.types import * 导入，常用的包括：StructType()：结构体 StructField()：结构体中的元素 LongType()：长整型 Strin...

pyspark group_concat

武西亮的博客

09-09

1466

from pyspark.sql.column import Column from pyspark.sql.column import _to_java_column from pyspark.sql.column import _to_seq spark = SparkSession.builder.appName("scala_udf_test").getOrCreate() sc = ...

spark字符串操作处理

盛源的博客

07-25

9411

目录 1 spark-sql字符串截取操作 1.1 sql语句中使用 1.2 dsl语句中使用 1 spark-sql字符串截取操作 1.1 sql语句中使用 1 返回字符串A从start位置到结尾的字符串 select substring('abcde',3); cde select substring('abcde',-2); de 2 返回字符串A从start位置开始，长度为len的字符串 select substring('abcde',3,2); cd select substrin

pyspark把df中一个字符串字段改成嵌套json格式要利用schema