2_遍历所有文件夹中的txt文件【“依存句法”之“MD&A分析”】

本文介绍了一个Python脚本,它使用pandas库读取文本文件(.txt),通过os和xlsxwriter模块将数据整理成Excel表格,逐行存储文件名和内容,方便管理2001年至2023年间管理层讨论与分析的文本数据。
摘要由CSDN通过智能技术生成
import pandas as pd
import os
import xlsxwriter

for year in range(2001,2023):
    # *设置文件夹路径 (此处以2001年为例)
    filedir = f"C:/Users/86189/Desktop/管理层讨论与分析_原文/外网_CMDA_管理层讨论与分析_ALL/{year}/文本"
    # 设置工作路径
    os.chdir(filedir)
    # *创建Excel写入器
    writer = pd.ExcelWriter(f'C:/Users/86189/Desktop/管理层讨论与分析_文本汇总/data_{year}.xlsx', engine='xlsxwriter')
    # 获取工作表对象
    worksheet = writer.book.add_worksheet('Sheet1')
    # 遍历TXT文件列表
    for i, file in enumerate(os.listdir(filedir)): # enumerate用于计数,形成“序数+值”格式
        # 判断文件是否是txt文件
        if file.endswith('.txt'):
            # 读取TXT文件
            data = pd.read_csv(file, delimiter='\t', header=None,quoting=3) # quoting=3,防止文本中出现英文双引号导致报错
            # 获取文件名(不带扩展名)
            filename = os.path.splitext(file)[0]
            # 第一行写入文件名
            worksheet.write(i+1, 0 , filename) # i+1 是为了把第一行空出来,便于后续加上索引
            # 将剩余数据写入Excel文件的工作表中,从第二行开始
            for j in range(len(data)):
                worksheet.write(i+1, j+1, data.iloc[j][0])
    # *在第一行加入索引
    indexs_1 = "文件名"
    worksheet.write(0,0,indexs_1)
    indexs_2 = "文件内容"
    worksheet.write(0,1,indexs_2)
    # 保存Excel文件
    writer.close()

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值