爬取内容
1.导入包、库
import requests
from bs4 import BeautifulSoup
2.定义请求头
右键->>检查->>网络(network)->>F5刷新->>选名称第一个->>右边找到user-agent
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",
}
3.定义url
一共有七千多页的内容,所以获取每页的url是关键。
得到每页的url,找规律:
https://www.autohome.com.cn/news/1/#liststart
https://www.autohome.com.cn/news/2/#liststart
https://www.autohome.com.cn/news/3/#liststart
获取每页的url