爬虫，第二弹

最新推荐文章于 2024-10-30 16:40:23 发布

夜话ه٥

最新推荐文章于 2024-10-30 16:40:23 发布

阅读量305

点赞数

分类专栏：题库新手随便看看文章标签：爬虫 Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_62971087/article/details/129600914

版权

题库同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

新手

19 篇文章 0 订阅

订阅专栏

随便看看

17 篇文章 0 订阅

订阅专栏

该文介绍了一个使用Python的requests库和BeautifulSoup（bs4）库来抓取hao123网站特定板块（蓝色区域）的名称和对应网页地址的过程。代码示例展示了如何获取文本内容和HTML属性，并存储在字典列表中。

摘要由CSDN通过智能技术生成

本次学习的bs4爬取

爬取的网站为https://www.hao123.com/

import requests
from bs4 import BeautifulSoup
res = requests.get("https://www.hao123.com/")  # 可以print一下res看看结果
soup = BeautifulSoup(res.text, "html.parser")
result = soup.select(".js_bd .js_site-item .inline-block-wrapper .icon-site")
datas = []
for item in result:
    data = {}
    # print(item.get_text())
    # print(item.attrs["style"][22:-1])
    data["cname"] = item.get_text()
    data["ename"] = item.attrs["style"][22:-1]
    datas.append(data)
print(datas)

引用bs4中的BeautifulSoup

这些主要爬取的就是网站首页下