rdd语句两个表join之后会出现字段重复问题(如下图):
在后面的代码编写过程中直接使用选字段的时候直接选会报错 例如:
.select('emp_id','dept_id')
报错:Reference 'dept_id' is ambiguous, could be: dept_id, dept_id.
这个时候只需要一个简单的操作,例如需要的是df1的dept_id只需要 df1['dept_id'] 就行可以了。
rdd语句两个表join之后会出现字段重复问题(如下图):
在后面的代码编写过程中直接使用选字段的时候直接选会报错 例如:
.select('emp_id','dept_id')
报错:Reference 'dept_id' is ambiguous, could be: dept_id, dept_id.
这个时候只需要一个简单的操作,例如需要的是df1的dept_id只需要 df1['dept_id'] 就行可以了。