在数据预处理时,我们要处理的df对象可能来自于不同的文件夹,此时需要我们分别处理各个文件,再将结果合并一起待后续处理,这是很常见的情况。
files = [XXXX,XXX]
list_ = []
for file in files:
with codecs.open(file, "r", "utf-8") as f:
for line in f:
content = line.strip().split('\t')
# 对每一行的内容进行处理
text = function_f(content)
list_.append(pd.DataFrame(text,columns=[],index=[])) # Series对象也可
raw_data = pd.concat(list_)