Python爬虫 beautifulsoup4解析html数据

pip install beautifulsoup4

from bs4 import BeautifulSoup

...
response = requests.get(url,  headers={'User-Agent':random.choice(userAgent)})

"""        
		<div class="sonspic">
               <div class="cont" style="margin-top:13px;">
                <p style="height:22px;">
                   <a target="_blank" style="font-size:18px; line-height:22px; height:22px;" href="/xxx/book_46653FD803893E4F93E5C6C3.aspx"><b>尚书</b></a>
                </p>
               </div>
        </div>
"""
        
soup = BeautifulSoup(response.text, 'html.parser')
st = soup.find_all(attrs={"class": "sonspic"})
for i in st:	
    text = i.select('a')[0].get_text()
    # "尚书"
    url = i.select('a')[0].get('href')
    # "/xxx/book_46653FD803893E4F93E5C6C3.aspx"



Tag类型可以直接转换为字符串。

st = soup.find_all(attrs={"class": "sonspic"})
print(type(st)) # <class 'bs4.element.Tag'>
print(str(st))
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值