python 合并文件夹下所有文件数据

最新推荐文章于 2024-04-30 11:28:47 发布

xindehouhuayuan

最新推荐文章于 2024-04-30 11:28:47 发布

阅读量1.7k

点赞数

文章标签： python 数据挖掘爬虫

本文链接：https://blog.csdn.net/xindehouhuayuan/article/details/122342660

版权

爬虫数据由于反爬的存在，跑下来的数据可能是分段的。在数据格式相同的情况下，可以对数据进行合并：

import os
import pandas as pd
# cob_path 为要合并的文件夹
cob_path = r'C:\质押公告爬取'+os.sep
filename = os.listdir(cob_path)
zhiya = pd.DataFrame([], columns=['StockCode', 'StockName', 'AnnTitle', 'AnnPDF', 'AnnTime'])
for file in filename:
	# 固定要爬取的文件类型（我文件夹还有word等文件，数据文件为xlsx，也可以不设条件）
    if file.split('.')[1] == 'xlsx':
        temp_data = pd.read_excel(cob_path+file, dtype={'StockCode': 'str'})
        zhiya = pd.concat([temp_data, zhiya])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xindehouhuayuan

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 合并文件夹下所有文件数据

爬虫数据由于反爬的存在，跑下来的数据可能是分段的。在数据格式相同的情况下，可以对数据进行合并：import osimport pandas as pd# cob_path 为要合并的文件夹cob_path = r'C:\质押公告爬取'+os.sepfilename = os.listdir(cob_path)zhiya = pd.DataFrame([], columns=['StockCode', 'StockName', 'AnnTitle', 'AnnPDF', 'AnnTime'])f
复制链接

扫一扫