前言
爬新闻的时候找到了一个有意思的网站
url = ‘https://news.mydrivers.com/’
这网站第一是要爬取的数据是动态加载出来的(向下滑动,自动加载),第二是我找到的接口还被转码加密了(不过处理起来也不是很难)
依赖包
import openpyxl
import requests
import re
from tqdm import tqdm
tqdm是一个生成进度条的包
爬取准备
1.看网页的爬虫协议,根网址后面加/robots.txt就可以看到了

看说明是只要不爬直播的内容就没事
2.观察网页数据返回(F12)

这边我找到了个返回来的文件(其他的都是些返回来的图片),数据应该就藏在这个接口这里,现在对?之后的网址进行一下删除,只保留page之前的网址。

可以看到链接访问进去是有东西的,但是被转码加密了一下,复制到pycharm里面看看

也就是对网页源代码进行编码加密了,这个处理起来也简单
# 网页套了一层壳,解码网页
req = requests.get(url).text.encode('utf8').decode("unicode_escape")
在get请求后面加上
.encode('utf8').decode("unicode_escape")
就可以解决这个问题
![]()
我又双对网址观察了一下发现


page代表着页数,这个ac代表着这些分类,到这里基本上着网站的数据我们都可以拿到了
数据爬取
1.前期准备
header = {
'User-Agent': '',
'cookie': ''
}
# 要获取的分类
cate &#

该文章介绍了一个使用Python爬取特定网站新闻数据的过程,涉及动态加载内容的处理、加密接口的解码以及网页源代码的正则解析。作者通过requests库获取数据,使用正则表达式匹配链接,并清洗数据,最终将信息存储到Excel文件中。文章提到代码存在的问题,如未做链接去重和未采用多线程,导致效率较低。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



