python urllib与BeautifulSoup联用

本文介绍了如何结合Python的urllib库和BeautifulSoup库来抓取网页内容。通过urllib获取网页源代码,然后利用BeautifulSoup解析HTML,提取所需信息,实现简单的网络爬虫功能。
摘要由CSDN通过智能技术生成
import urllib.request,urllib.parse,urllib.error
#从bs4库导入beautifulsoup类
from bs4 import BeautifulSoup
#导入ssl为了防止错误,此段照抄
import ssl
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

url='http://py4e-data.dr-chuck.net/comments_1205404.html'
#给beautifulsoup类实例化
b=urllib.request.urlopen(url,context=ctx).read()
#context=ctx也是导入了ssl的固定格式
soup=BeautifulSoup(b,'html.parser')
#html.parser为beautifulsoup的固定格式
tags=soup('span')#()中输入要查找的tag,tag可先用浏览器右键网页检查源代码找到
for i in tags:
    print(i)
import urllib.request,urllib.parse,urllib.error
from bs4 import BeautifulSoup
import ssl
import re

ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

url='https://movie.douban.com/top250'
#模拟浏览器header方法
headers={'User-Agent&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值