通过Python的PyQt4，实现对网页加载JS加密内容进行多个URL爬取，如何实现显示当前爬取进度？

最新推荐文章于 2021-08-01 23:13:27 发布

weixin_47196630

最新推荐文章于 2021-08-01 23:13:27 发布

阅读量940

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_47196630/article/details/108722843

版权

# !/usr/bin/env python3
# -*- coding:utf-8 -*-
# @Time : 2020/9/20 21:26 
# @Author : aslen168
# @File : 测试5.py 
# @Software: PyCharm

import sys
from PyQt4 import QtCore, QtGui, QtWebKit
import requests
import bs4
import os
import pathlib

# 根据输入的小说主页，进入小说目录页，获取所有章节的网址。
url = input('请输入小说主页：')
# url = "https://aabook.cc/book.php?id=3100"
domain = url.split('book.php')[0]
# print(domain)
url2 = url.replace('book.php', 'archive.php')
# print(url2)
headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
res = requests.get(url=url2, headers=headers)
res.encoding = res.apparent_encoding  # requests包get响应内容中文乱码解决方法
html = res.text
# print(html)
soup = bs4.BeautifulSoup(html, 'html.parser')
# print(soup)
chapters = soup.find(class_="section_list").find_all('a')
# print(chapters[0]['href'])

最低0.47元/天解锁文章

weixin_47196630

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通过Python的PyQt4，实现对网页加载JS加密内容进行多个URL爬取，如何实现显示当前爬取进度？

# !/usr/bin/env python3# -*- coding:utf-8 -*-# @Time : 2020/9/20 21:26 # @Author : aslen168# @File : 测试5.py # @Software: PyCharmimport sysfrom PyQt4 import QtCore, QtGui, QtWebKitimport requestsimport bs4import osimport pathlib# 根据输入的小说主页，进入小
复制链接

扫一扫