XIAOKEZIK-CSDN博客

原创 python期末项目(部分爬虫）

爬取部分的代码：首先模拟浏览器，通过查看Host,Upgrade-Insecure-Requests,User-Agent补充head部分，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据。设置getfront，getInformation函数爬取网页源代码。page为页数，item为搜索时输入的字符串，通过urllib.parse.quote(item)将字符串转成十六进制编码，ur2为爬取网页信息的部分网址，ur1为网址中随页数与输入的字符串不同而产生变化的部分，res为拼接出的网

2021-12-21 21:51:13 1945 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人