Python利用标题规则抽取文档段落
目的:想实现单文档的自动文摘,来源是word文件,有很多页,为了让自动摘要的关键句子更加准确,打算将篇章级转为段落级。
条件:word文档有编制模板,这样就可以基于标题规则去进行特定段落抽取。
核心:其实就是利用特定字符串进行简单的正则表达式匹配。
步骤:1.Python解析文档标题结构,输出全部标题,可为规则制定者提供信息参考;2.将word文档转化成TXT格式文本后,将标题作为字符串输入,正则表达式匹配,然后取到标题之间的内容。3.将内容写到新的TXT文本里,再做自动文摘,这样得到的句子就准确很多啦。