import requests #调用这个库文件
def getHtml(url): #定义名为getHtml的函数
try:
r=requests.get(url,timeout=30) #获取传入的url这个地址的数据,在获取时间,超过30秒,则判定网页假死。
r.raise_for_status() #如果返回值不是200,则跳出try,执行except的内容
r.encoding=r.apparent_encoding #将默认的IOS-XXXX-XXX编码,修改为apparent_encoding,获得的编码格式
return r.text #函数将获取的数据,以文本形式返回
except:
return "异常"
print(getHtml("https://www.baidu.com")) #将百度,这个网站,用函数进行抓取,并打印。
爬虫的基本框架
最新推荐文章于 2024-02-06 09:30:00 发布