本次学习的bs4爬取
爬取的网站为https://www.hao123.com/
import requests
from bs4 import BeautifulSoup
res = requests.get("https://www.hao123.com/") # 可以print一下res看看结果
soup = BeautifulSoup(res.text, "html.parser")
result = soup.select(".js_bd .js_site-item .inline-block-wrapper .icon-site")
datas = []
for item in result:
data = {}
# print(item.get_text())
# print(item.attrs["style"][22:-1])
data["cname"] = item.get_text()
data["ename"] = item.attrs["style"][22:-1]
datas.append(data)
print(datas)
引用bs4中的BeautifulSoup
这些主要爬取的就是网站首页下
图中蓝色区域的名称与网页地址的位置