数据清洗:Python将一列数据拆分成多列

18 篇文章 0 订阅

# 数据清洗:Python将一列数据拆分成多列

import pandas as pd

test_data = pd.read_excel('./test_split.xlsx')
columns = test_data.columns.to_list() 
print(columns)
test_data.head()

def col_split(data):

    '''统计需要进行拆分的字段:如果某一列所有非空取值均包含“:”,而不包含“http:”和“https:”,则需要拆分
    '''

    split_col = []
    for i in columns:
        num = 0
        temp = data[i].dropna()
        if len(temp)>0 : # 对于有取值的字段,判断是否需要拆分
            for j in temp:
                if ":" in str(j) and 'https:' not in str(j) and 'http:' not in str(j) :
                    num+=1
            if num == len(temp):
                print("需拆分:",i)
                split_col.append(i)

    print("需要拆分的字段:",split_col)

    '''拆分数据并进行保存
    '''
    cleaned_data = pd.DataFrame()
    for i in columns:
        if i in split_col:
            temp = data[i].str.split(':',expand=True) 
            cleaned_data[i] = temp[1] # 保留右侧一列
            print(cleaned_data)

        else:
            cleaned_data[i] = data[i]

    print("--- End ---")
    
    return cleaned_data

col_split(test_data)

在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值