根据时间索引合并列
将多个数据表,以时间为索引,并选取需要分析的列进行合并。在本文中,拿到的数据是同一时期的不同设备的特征数据,需要提取对应的列进行时间合并,在合并过程中存在以下问题:
1、时间索引存在重复,需要删除重复项,否则合并时会报错;
2、每个表中需要提取的列名称一样,需要在合并前进行重新命名,否则合并后就无法区分;
3、取共同时间进行合并,在同一时间段内不同表格的采集时间有差异,但是需要提取的是相同时间数据。
数据初步查看
选取文件所在的路径,读取文件并查看文件中的列名称
import pandas as pd
import glob,os
path='E:\python总结\实例数据\以时间为索引提取并合并列' #选择要合并的文件路径
files=glob.glob(os.path.join(path,'*.csv')) #将目录下所有csv格式的文档读取出来
data_0=pd.read_csv(files[0],engine='python') #查看表得列名
data_0.columns
输出结果:
Index(['real_time', 'grWindSpeed', 'grVaneDirection', 'grPitchAngleBlade1',
'grPitchAngleBlade2', 'grPitchAngleBlade3', 'grGenPowerForProcess',
'grGenSpeedForProcess'],
dtype='object')
按照要求进行数据列合并
hd