Python 提取网页正文,将网页转为图片!

使用Python的newspaper库来提取网页正文,并在文本提取不成功时将网页转换为图片以提高成功率,避免HTML标签和JS残留问题。
摘要由CSDN通过智能技术生成

Python 提取网页正文,将网页转为图片!!!

用到python的newspaper库

from newspaper import Article
news = Article(link.strip(), language='zh')
        news.download()
        news.parse()
        print(news.text)

计算识别长度是否合格
不合格的从URL访问网页转成图片提取
(为什么不直接提取html中的文字:转成图片成功率更大,且去除html标签有js残留)
图1 counts1为从源码中去除html标签的成功率
图2 counts1为URL访问网页转成图片的成功率PS:只要转成图片必能识别文字
请添加图片描述

请添加图片描述
URL访问网页转成图片:

import imgkit
 path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径
                cfg = imgkit.config(wkhtmltoimage=path_wkimg)
                imgkit.from_url(link, str(num) + '.jpg', config=cfg)

全部代码附上:

import urllib
from newspaper import Article
Python中,你可以使用多个库来完成从网页下载PDF文件并将其转换为TXT文本的任务。以下是这个过程的一般步骤: 1. **下载PDF文件**:你可以使用`requests`库来发送HTTP请求,下载网页上的PDF文件。首先需要安装这个库(如果尚未安装):`pip install requests`。然后,你可以使用以下代码来下载PDF: ```python import requests # PDF文件的URL pdf_url = 'http://example.com/somefile.pdf' # 发送GET请求 response = requests.get(pdf_url) # 确保请求成功 response.raise_for_status() # 将PDF内容保存到文件 with open('downloaded_file.pdf', 'wb') as f: f.write(response.content) ``` 2. **将PDF转换为TXT**:Python中有一些库可以处理PDF内容,如`PyMuPDF`(也称为`fitz`)或`PyPDF2`。首先安装其中一个库(例如`PyMuPDF`):`pip install PyMuPDF`。然后,你可以使用该库来读取PDF内容,并将其转换为TXT。以下是一个使用`PyMuPDF`的示例: ```python import fitz # PyMuPDF # 打开PDF文件 pdf_document = fitz.open("downloaded_file.pdf") text = "" # 遍历PDF的每一页 for page in pdf_document: # 提取并拼接每页的文本内容 text += page.get_text() # 关闭PDF文件 pdf_document.close() # 输出或保存TXT内容 print(text) # 或者写入到TXT文件 with open('converted_text.txt', 'w', encoding='utf-8') as f: f.write(text) ``` 3. **保存TXT文件**:最后,你可以将提取的文本内容保存到一个文本文件中,就像上述代码中所做的那样。 以上就是使用Python网页下载PDF并转换为TXT文本的步骤。需要注意的是,PDF文件可能包含复杂的布局和格式,所以转换过程中可能会丢失一些原始格式和结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值