爬虫数据由于反爬的存在,跑下来的数据可能是分段的。在数据格式相同的情况下,可以对数据进行合并:
import os
import pandas as pd
# cob_path 为要合并的文件夹
cob_path = r'C:\质押公告爬取'+os.sep
filename = os.listdir(cob_path)
zhiya = pd.DataFrame([], columns=['StockCode', 'StockName', 'AnnTitle', 'AnnPDF', 'AnnTime'])
for file in filename:
# 固定要爬取的文件类型(我文件夹还有word等文件,数据文件为xlsx,也可以不设条件)
if file.split('.')[1] == 'xlsx':
temp_data = pd.read_excel(cob_path+file, dtype={'StockCode': 'str'})
zhiya = pd.concat([temp_data, zhiya])