用requests的get方法获取网站的标题、网址(简单)

网页源代码如下(2022.10.11):

找到目标所在的父标签、子标签后,实现代码

代码如下:

#导出bs4,requests库

import bs4,requests

#伪装请求头
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'}

#编辑url网址

url='http://bbs.tianya.cn/list-funinfo-1.shtml'

#requests.get()方法

res=requests.get(url,headers=headers)

#利用BeatifulSoup方法
info_1=bs4.BeautifulSoup(res.text,'html.parser')

#利用BeautifulSoup的find.all(),并写上标签‘tr’,和属性class_和属性值‘bg’
info_2=info_1.find_all('tr',class_="bg")

#利用循环取值
for info_3 in info_2:

#用find()里面写上标签‘a’
    info_4=info_3.find('a')

#输出text格式,并用strip()去掉空格
    print(info_4.text.strip())

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果想用 Python 获取网页的标题,首先你需要使用 Python 的网络库,比如说 `requests` 库。使用它可以发送 HTTP 请求并获取网页的 HTML 代码。 接下来,你可以使用 BeautifulSoup 库解析 HTML 代码,并从中提取标题。 下面是一个简单的例子: ``` import requests from bs4 import BeautifulSoup url = 'http://www.example.com' try: page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') title = soup.title.string print("The title of the page is:", title) except requests.exceptions.RequestException as e: print("Could not connect to", url) print("Error:", e) ``` 在这个例子中,首先使用 `requests.get` 发送请求,然后使用 BeautifulSoup 解析 HTML 代码。提取标题的代码为 `soup.title.string`,其中 `soup.title` 获取的是 `<title>` 标签,而 `.string` 则是获取标签中的文本。 注意:如果网页不存在,或者连接超时等异常情况发生,`requests.get` 可能会抛出异常,需要用 `try`...`except` 进行捕获。 ### 回答2: 如果网址无法连接的情况下,我们可以使用Python的requests库来获取网址title。 首先,我们需要导入requests库: ``` import requests ``` 接下来,我们可以使用try-except语句来捕获网络连接错误,并使用requests库来获取网址的内容: ``` try: url = "需要获取title网址" response = requests.get(url) response.raise_for_status() # 如果请求出现错误,引发异常 html = response.text # 在获取的HTML代码中查找<title>标签的内容 start_pos = html.index("<title>") + len("<title>") end_pos = html.index("</title>") title = html[start_pos:end_pos] print("网址标题是:" + title) except requests.exceptions.RequestException as e: print("无法连接网址:" + str(e)) ``` 这里的`url`是需要获取title网址,可以根据实际情况进行更改。 在代码中,我们首先使用`requests.get(url)`发送get请求获取网址的内容,如果请求出错,将引发`requests.exceptions.RequestException`异常。然后,我们在获取的HTML代码中通过查找`<title>`标签的位置,截取`<title>`和`</title>`之间的内容,即为网址标题。最后,我们将标题打印出来。 请注意,该方法需要在可以连接到网上的情况下才能正常运行,并获取到正确的标题。如果网址无法连接,我们将无法获取title。 ### 回答3: 如果网址无法连接,无法直接使用Python获取网址title,因为无法访问网站的内容。然而,我们可以使用Python的一些库和技术来处理这个问题。 一种解决方法是使用异常处理机制。我们可以使用Python的requests库来尝试获取网页的内容。如果网址无法连接,requests库会抛出一个异常。我们可以使用try-except块来捕获该异常,并在无法连接时给出相关提示。 以下是一个使用异常处理的示例代码: ```python import requests from bs4 import BeautifulSoup url = "需要获取title网址" try: response = requests.get(url) response.raise_for_status() soup = BeautifulSoup(response.text, "html.parser") title = soup.title.string print("网页title为:", title) except requests.HTTPError as e: print("无法连接网址:", e) except requests.RequestException as e: print("请求异常:", e) except Exception as e: print("发生其他错误:", e) ``` 在这个示例中,我们首先导入了requests库和BeautifulSoup库。然后,我们使用requests库的get()方法获取网页的内容,并将其转化为BeautifulSoup对象。接下来,我们从BeautifulSoup对象中提取title,并打印出来。如果无法连接该网址,则相应的异常会被捕获并显示提示信息。 需要注意的是,这种方法仅适用于无法连接网址的情况。如果该网址存在但返回的内容不是HTML格式,或者title标签不存在,那么以上代码可能会报错。因此,在实际应用中,我们可能还需要添加更多的异常处理和逻辑判断来处理不同的情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值