Python 提取网页正文，将网页转为图片!

没头脑-_-

已于 2022-10-27 16:50:52 修改

阅读量1.7k

点赞数

文章标签： python html

于 2021-07-21 14:29:17 首次发布

本文链接：https://blog.csdn.net/weixin_47385334/article/details/118965459

版权

使用Python的newspaper库来提取网页正文，并在文本提取不成功时将网页转换为图片以提高成功率，避免HTML标签和JS残留问题。

摘要由CSDN通过智能技术生成

Python 提取网页正文，将网页转为图片!！！

用到python的newspaper库

from newspaper import Article
news = Article(link.strip(), language='zh')
        news.download()
        news.parse()
        print(news.text)

计算识别长度是否合格
不合格的从URL访问网页转成图片提取
（为什么不直接提取html中的文字：转成图片成功率更大，且去除html标签有js残留）
图1 counts1为从源码中去除html标签的成功率
图2 counts1为URL访问网页转成图片的成功率PS：只要转成图片必能识别文字
请添加图片描述

请添加图片描述
URL访问网页转成图片：

import imgkit
 path_wkimg = r'H:\wkhtmltopdf\bin\wkhtmltoimage.exe'  # 工具路径
                cfg = imgkit.config(wkhtmltoimage=path_wkimg)
                imgkit.from_url(link, str(num) + '.jpg', config=cfg)

全部代码附上：

import urllib
from newspaper import Article

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

没头脑-_-

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python提取PDF中部分页面的实战代码

weixin_43178406的博客

01-15

2万+

本文主要介绍了Python提取PDF中部分页面的实战代码，希望能对使用Python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

Python-img2html用于将图片转化为HTML页面

08-10

img2html 用于将图片转化为 HTML 页面，并没有什么实际作用，只是为了好玩。

参与评论您还未登录，请先登录后发表或查看评论

python图片保存_使用Python保存网页上的图片或者保存页面为截图

weixin_39972777的博客

11-23

377

Python保存网页图片这个是个比较简单的例子，网页中的图片地址都是使用'http://。。。。.jpg'这种方式直接定义的。使用前，可以先建立好一个文件夹用于保存图片，本例子中使用的文件夹是 d:\\pythonPath这个文件夹代码如下：# -*- coding: UTF-8 -*-import os,re,urllib,uuid#首先定义云端的网页,以及本地保存的文件夹地址urlPath='...

网页HTML一键转图片！

liangshanbo1215的博客

08-08

208

无论是视频、音频、图片还是电子书格式转换，统统支持，它实在给的太多了。在网站找到HTML转图片工具，复制粘贴网页链接，点击转换HTML按钮，即可一键将网页转换为JPG或SVG，并保持原有的视觉效果。设置屏幕大小、自定义宽度，输入网址，点击GO按钮，即可轻松将一个网页保存为图片,导出PDF、PNG、JPG、SVG、BMP等格式的文件。这个时候可以使用一些免费的网页转图片工具，你可以在搜索的时候输入网页转图片、网页转JPG、HTML转图片或者HTML转JPG工具等关键词，来查找合适的工具。

python 实现浏览器页面转图片

omnipotent_wang的博客

11-25

927

python 实现浏览器页面转图片

python将网页转换为图片保存

weixin_41927456的博客

08-07

5690

前言：我们可能会遇到将html网页转为图片，介绍我遇到的两种不同情况下的方式。环境：python中的selenium 1.网站中的网页转换为图片：思路：使用selenium的PhantomJS将网页转换为图片。 #-*- coding=utf-8 -*- #@Time : 2020/8/7 10:08 PM #@Author : 小邋遢 #@File : tset.py #@Software : PyCharm from selenium import webdriver # 从selenium库导

将网页转换成图片的Python库IMGKit.zip

07-19

IMGKit 是一个 Python 2/3 的库，使用它我们可以将网页转换成图片，输入可以是网址，HTML 文件或者字符串。安装安装 python-pdfkit：$ pip install pdfkit安装wkhtmltopdf：Debian / Ubuntu： $ sudo apt-get install wkhtmltopdf 标签：IMGKit

python提取html正文为txt,python 提取html文本的方法

weixin_32816821的博客

06-11

1502

假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！这是一个简单的基准测试，可分析commoncrawl(`处...

Python语言实现将图片转化为html页面

12-23

PIL（Python Imaging Library）是 Python 平台的图像处理标准库。不过 PIL 暂不支持 Python3，可以用 Pillow 代替，API是相同的。安装 PIL 库如果你安装了 pip 的话可以直接输入 pip install PIL 命令安装 Pillow...

Python商业数据挖掘实战——爬取网页并将其转为Markdown_爬取网页的markdown格式

2401_84139908的博客

04-29

786

print(“[–] 开启爬取 {} 博文进程出现异常 …”.format(username))print(“[++] 开启爬取 {} 博文进程成功 …”.format(username))

python imgkit将HTML转化为图片

weixin_43420193的博客

06-13

6266

有个需求，需要将HTML转换成图片。于是按照网上的办法找到imgkit库，windows操作很简单。window： python 代码如下：测试没有问题，完美输出。部署到CentOS Linux release 7.9.2009 (Core)上出现异常：centos 环境正确配置 wkhtmltopdf：cannot connect to X server 只要做好链接，就可以直接使用了...

使用Python保存网页上的图片或者保存页面为截图

12-24

Python保存网页图片这个是个比较简单的例子，网页中的图片地址都是使用’http://。。。。.jpg’这种方式直接定义的。使用前，可以先建立好一个文件夹用于保存图片，本例子中使用的文件夹是 d:\\pythonPath这个文件夹代码如下： # -*- coding: UTF-8 -*- import os,re,urllib,uuid #首先定义云端的网页,以及本地保存的文件夹地址\nurlPath='http://gamebar.com/'\nlocalPath='d:\\\\pythonPath' #从一个网页url中获取图片的地址，保存在 #一个list中返回 def getUr

python --html转图片；centos装浏览器；

weixin_44634704的博客

10-24

1490

安装完成之后的话，使用 google-chrome --version 命令查看安装的谷歌浏览器的版本，然后从网上去下载浏览器对应版本的驱动文件。，不然到时候是无法启动浏览器执行用例的。下载完解压后，记得检查驱动文件是否为。

python页面转图片_网页转图片_技术分享 - SegmentFault 思否

weixin_39917718的博客

12-11

344

将一段文字转成图片，比如常用的长微博工具这里用 PHP 来处理。text2piccomposer require dsgygb/text2pictouch test.phprequire 'vendor/autoload.php';$transform = new Text2pic\Transform('by text2pic');$result = $transform->generat...

linux python 网页转图片

weixin_43047092的博客

10-13

611

使用CutyCap 1.sudo apt-get install cutycapt #安装，适用Debian, Ubuntu 或者 Linux Mint 2.cutycapt --url=http://www.cnn.com --out=cnn.png

python网页保存为图片_使用Python保存网页上的图片或者保存页面为截图

weixin_42348363的博客

01-30

382

python将网页保存为图片_使用Python保存网页上的图片或者保存页面为截图

weixin_39818550的博客

12-16

790

# -*- coding: UTF-8 -*-import os,re,urllib,uuid#首先定义云端的网页,以及本地保存的文件夹地址urlPath='http://gamebar.com/'localPath='d:\\pythonPath'#从一个网页url中获取图片的地址，保存在#一个list中返回def getUrlList(urlParam):urlStream=urllib.ur...

python将网页保存为图片_「保存网页为图片」如何将整个网页保存为图片? - seo实验室...

weixin_39887221的博客

12-16

644

保存网页为图片很多时候一个网页很有用，复制下来格式又不对，网页的排版，文字说明等要按原来的进行复制下来很麻烦，这时候将整个网页保存为图片格式，就可以保存网页原来的风格，没有数据丢失。那么如何将整个网页保存为图片?下面我们一起来看看吧！方法/步骤1、打开360浏览器，找到要保存的网页，如图2、在该网页中，浏览器的右上方有菜单栏，其中有截图功能菜单，如图3、再点击【截图】功能菜单，会出现截图选项，如图...

python实现任意url转存为图片

weixin_39990025的博客

01-26

7501

关键词：python、前后端分离、url返回图片现在前后端分离的情况，比较常见，我一个Django框架后端，要为安卓、IOS、小程序、网站、手机H5网页等好多地方提供接口。有个需求是这样的：把数据库里面的一个对象，按照一定的格式生成图片或者pdf。我的思路如下： 1、生成Django模板网页； 2、该网页转图片；第一步就是咱们的本职，不多描述了，主要看看第二步如何实现。在网上找了好多的工...

python 网页中下载pdf并转为txt