最近遇到一个小问题,我要在pyspark里对Dataframe数据表实现行和列的遍历及定位,在python里很容易实现,但是用pyspark还没操作过,遇到一点小问题,但摸索了一会也实现了,记录如下:
描述
下表(data1)为某数据大宽表(data2)各列缺失数据的处理方法配置表,其中COLUMN_NAME为数据大宽表的特征名称,NULL_PROCESS_METHON为各特征列缺失数据的处置办法,假设处理方式共有4种:drop、zero、mean、other。
需求
遍历配置表(data1)的COLUMN_NAME,获取相应的缺失值处理方法(NULL_PROCESS_METHON),然后应用到数据大宽表(data2)的对应特征列。
实现
rows = data1.collect()
cols = data1