bs4爬取某网站

最新推荐文章于 2023-06-17 11:27:17 发布

汪宝儿

最新推荐文章于 2023-06-17 11:27:17 发布

阅读量819

点赞数 2

分类专栏：网络爬虫文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_48353691/article/details/128059166

版权

本文介绍了如何使用Python进行网页爬取，详细讲述了从导入必要的库，定义请求头，获取每页URL，利用bs4解析HTML并提取所需信息的步骤。重点在于解析器选择lxml，因其速度快且容错能力强。

摘要由CSDN通过智能技术生成

爬取内容

在这里插入图片描述

1.导入包、库

import requests
from bs4 import BeautifulSoup

2.定义请求头

右键->>检查->>网络（network）->>F5刷新->>选名称第一个->>右边找到user-agent

headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",
        }

3.定义url

一共有七千多页的内容，所以获取每页的url是关键。

在这里插入图片描述

得到每页的url，找规律：
https://www.autohome.com.cn/news/1/#liststart
https://www.autohome.com.cn/news/2/#liststart
https://www.autohome.com.cn/news/3/#liststart