读取word文件中的文本信息

需求:获取指定文件夹下的所有 word 文件的文件名文本数据,并将其写入至 xlsx 文件

实现思路

  1. 获取指定文件夹下的所有 word 文件名,存至 list1 中
  2. 将路径和文件名拼接,依次打开每个 word 文件,读取文本内容,存入 list2
  3. 将两个 list(包含 word 文件名和 word 文本内容)拼接,转成 DataFrame
  4. 将 DataFrame 写入 excel 文件

代码实现

# 查看当前文件路径
pwd

1. 导入库

import os
import docx
import pandas as pd

2. 获取 word 文件名

path = "D:\\Code" # word文件所在的文件夹目录
files= os.listdir(path) # 获取文件夹下的所有文件名称

3. 获取 word 文本内容

file_str_list = []  # 保存所有文档的文本内容
for i in range(len(files)): # 遍历目录下的所有文件夹
    file_path = path + '\\' + files[i]
    file = docx.Document(file_path) # 获取文档对象
    file_str = '' # 临时保存每篇文档的文本
    # 逐段落读取每一段的内容
    for para in file.paragraphs:
        # 去除所有空字符,包括空格、换行(\n)、制表符(\t)等
        para.text = ''.join(para.text.split())  
        file_str = file_str + para.text
    file_str_list.append(file_str)
# 输出所有文档文本内容构成的list
file_str_list

4. 拼接数据

# 将list转为DataFrame结构
df = pd.DataFrame((zip(files, file_str_list)), columns=['title', 'text'])

5. 写入文件

# 保存到本地excel
df.to_excel("data_zh.xlsx", index=False)

参考文章:python剔除空格 - 知乎 (zhihu.com)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值