爬虫,第二弹

19 篇文章 0 订阅
17 篇文章 0 订阅
该文介绍了一个使用Python的requests库和BeautifulSoup(bs4)库来抓取hao123网站特定板块(蓝色区域)的名称和对应网页地址的过程。代码示例展示了如何获取文本内容和HTML属性,并存储在字典列表中。
摘要由CSDN通过智能技术生成

本次学习的bs4爬取

爬取的网站为https://www.hao123.com/

import requests
from bs4 import BeautifulSoup
res = requests.get("https://www.hao123.com/")  # 可以print一下res看看结果
soup = BeautifulSoup(res.text, "html.parser")
result = soup.select(".js_bd .js_site-item .inline-block-wrapper .icon-site")
datas = []
for item in result:
    data = {}
    # print(item.get_text())
    # print(item.attrs["style"][22:-1])
    data["cname"] = item.get_text()
    data["ename"] = item.attrs["style"][22:-1]
    datas.append(data)
print(datas)

引用bs4中的BeautifulSoup

这些主要爬取的就是网站首页下

图中蓝色区域的名称与网页地址的位置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值