2_遍历所有文件夹中的txt文件【“依存句法”之“MD&A分析”】

最新推荐文章于 2024-07-25 18:55:58 发布

Zephrus·Coder

最新推荐文章于 2024-07-25 18:55:58 发布

阅读量345

点赞数 5

文章标签： python

本文链接：https://blog.csdn.net/weixin_72645680/article/details/136112439

版权

本文介绍了一个Python脚本，它使用pandas库读取文本文件（.txt），通过os和xlsxwriter模块将数据整理成Excel表格，逐行存储文件名和内容，方便管理2001年至2023年间管理层讨论与分析的文本数据。

摘要由CSDN通过智能技术生成

import pandas as pd
import os
import xlsxwriter

for year in range(2001,2023):
    # *设置文件夹路径 (此处以2001年为例)
    filedir = f"C:/Users/86189/Desktop/管理层讨论与分析_原文/外网_CMDA_管理层讨论与分析_ALL/{year}/文本"
    # 设置工作路径
    os.chdir(filedir)
    # *创建Excel写入器
    writer = pd.ExcelWriter(f'C:/Users/86189/Desktop/管理层讨论与分析_文本汇总/data_{year}.xlsx', engine='xlsxwriter')
    # 获取工作表对象
    worksheet = writer.book.add_worksheet('Sheet1')
    # 遍历TXT文件列表
    for i, file in enumerate(os.listdir(filedir)): # enumerate用于计数，形成“序数+值”格式
        # 判断文件是否是txt文件
        if file.endswith('.txt'):
            # 读取TXT文件
            data = pd.read_csv(file, delimiter='\t', header=None,quoting=3) # quoting=3,防止文本中出现英文双引号导致报错
            # 获取文件名（不带扩展名）
            filename = os.path.splitext(file)[0]
            # 第一行写入文件名
            worksheet.write(i+1, 0 , filename) # i+1 是为了把第一行空出来，便于后续加上索引
            # 将剩余数据写入Excel文件的工作表中，从第二行开始
            for j in range(len(data)):
                worksheet.write(i+1, j+1, data.iloc[j][0])
    # *在第一行加入索引
    indexs_1 = "文件名"
    worksheet.write(0,0,indexs_1)
    indexs_2 = "文件内容"
    worksheet.write(0,1,indexs_2)
    # 保存Excel文件
    writer.close()