Python爬虫实战——快科技·科技快讯板块(正则匹配,网页解码,动态加载)

该文章介绍了一个使用Python爬取特定网站新闻数据的过程,涉及动态加载内容的处理、加密接口的解码以及网页源代码的正则解析。作者通过requests库获取数据,使用正则表达式匹配链接,并清洗数据,最终将信息存储到Excel文件中。文章提到代码存在的问题,如未做链接去重和未采用多线程,导致效率较低。
摘要由CSDN通过智能技术生成

前言

        爬新闻的时候找到了一个有意思的网站

url = ‘https://news.mydrivers.com/’

这网站第一是要爬取的数据是动态加载出来的(向下滑动,自动加载),第二是我找到的接口还被转码加密了(不过处理起来也不是很难)

依赖包

import openpyxl
import requests
import re
from tqdm import tqdm

 tqdm是一个生成进度条的包

爬取准备

1.看网页的爬虫协议,根网址后面加/robots.txt就可以看到了

看说明是只要不爬直播的内容就没事

2.观察网页数据返回(F12)

 

 这边我找到了个返回来的文件(其他的都是些返回来的图片),数据应该就藏在这个接口这里,现在对?之后的网址进行一下删除,只保留page之前的网址。

 可以看到链接访问进去是有东西的,但是被转码加密了一下,复制到pycharm里面看看

 也就是对网页源代码进行编码加密了,这个处理起来也简单

# 网页套了一层壳,解码网页
req = requests.get(url).text.encode('utf8').decode("unicode_escape")

在get请求后面加上

.encode('utf8').decode("unicode_escape")

就可以解决这个问题

 我又双对网址观察了一下发现

 

 page代表着页数,这个ac代表着这些分类,到这里基本上着网站的数据我们都可以拿到了

数据爬取

1.前期准备

header = {
    'User-Agent': '',
    'cookie': ''
}

# 要获取的分类
cate &#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值