自定义标题
这里用到第三方库:Beautiful Soup(一个可以从HTML或XML文件中提取数据的Python库)
目标网页[baidu]:
一、爬取网页全部标签网址:
1、按F12进入开发者模式查看HTML:
找到目标超链接标签位置,方法如下GIF
我们找到的超链接信息如下:
2、分析HTML结构:
在HTML中,超链接用a表示,链接地址写作 href=“…”,格式如下:
<a href="http://news.baidu.com" name="tj_trnews" class="mnav">新闻</a>
3、代码如下:
import requests #获取网页
from bs4 import BeautifulSoup #解析网页
url = "https://www.baidu.com/"
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res= requests.get(url, headers=headers) #获取网页信息
soup = BeautifulSoup(res.text,'lxml')