通过apply进行数据预处理

最新推荐文章于 2023-11-11 09:28:19 发布

法蒂芬

最新推荐文章于 2023-11-11 09:28:19 发布

阅读量9.1k

点赞数 1

分类专栏：实战网课 python 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_44039183/article/details/107964655

版权

15 篇文章 0 订阅

订阅专栏

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

读取csv文件，通过head看DataFrame的数据，有两列

df=pd.read_csv('../homework/apply_demo.csv')
df.head()

通过size查看多少行

df.size

创建一个新的Series

s1= Series(['a']*7978)

往DataFrame里面添加新的一列’A’

df['A']=s1

df.head()

通过apply和str.upper方法，把A这个columns里面所有的元素变成大写

df['A']=df['A'].apply(str.upper)
df.head()

data里面的每个数据有三个元素’Symbol‘，’Seqno‘，’Price‘，把它分割为三列’Symbol‘，’Seqno‘和’Price‘
以data第一行为例，通过空格进行split，通过strip去掉头尾空格的干扰，返回一个list

l1=df['data'][0].strip().split(' ')

这个list的第2，4，6个元素即为我们想要得到的值。

l1[1],l1[3],l1[5]

('APPL', '0', '1623')

编写一个函数，用来apply方法的调用，split这一列，实现原理如上面一样

def foo(line):
    items=line.strip().split(' ')
    return Series([items[1],items[3],items[5]])

使用apply方法把data这一列分为三列

df_tmp=df['data'].apply(foo)
df_tmp.head()

使用rename方法把新生成的columns的名字重新命名一下

df_tmp=df_tmp.rename(columns={0:"Symbol",1:"Seqno",2:"Price"})

df_tmp.head()

把combine_first把df_tmp加到df的上面

df_new=df.combine_first(df_tmp)

df_new.head()

	A	Price	Seqno	Symbol	data	time
0	A	1623	0	APPL	Symbol: APPL Seqno: 0 Price: 1623	1473411962
1	A	1623	0	APPL	Symbol: APPL Seqno: 0 Price: 1623	1473411962
2	A	1623	0	APPL	Symbol: APPL Seqno: 0 Price: 1623	1473411963
3	A	1623	0	APPL	Symbol: APPL Seqno: 0 Price: 1623	1473411963
4	A	1649	1	APPL	Symbol: APPL Seqno: 1 Price: 1649	1473411963

删掉data列

del df_new['data']
df_new.head()

	A	Price	Seqno	Symbol	time
0	A	1623	0	APPL	1473411962
1	A	1623	0	APPL	1473411962
2	A	1623	0	APPL	1473411963
3	A	1623	0	APPL	1473411963
4	A	1649	1	APPL	1473411963

删掉’A’这一列

del df_new['A']
df_new.head()

	Price	Seqno	Symbol	time
0	1623	0	APPL	1473411962
1	1623	0	APPL	1473411962
2	1623	0	APPL	1473411963
3	1623	0	APPL	1473411963
4	1649	1	APPL	1473411963

关注