python中使用docx库操作word文档记录(1)- 读取文本和表格
本文记录docx库读取word文本和表格的方法
一、使用docx模块
Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。
安装方法为:pip install python-docx
二、相关概念
先了解python-docx模块的几个概念。
1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。
三、读取文本
from docx import Document #导入库
path = 'ys.docx' #文件路径
wordfile = Document(path) #读入文件
paragraphs = wordfile.paragraphs
#输出每一段的内容
for paragraph in wordfile.paragraphs:
print(paragraph.text +"\n end")
#输出段落编号及段落内容
for i in range(len(wordfile.paragraphs)):
pr