另外一款输入url自动保存文本为txt的python爬虫程序

最新推荐文章于 2024-11-14 08:53:59 发布

执刀人的工具库

最新推荐文章于 2024-11-14 08:53:59 发布

阅读量173

点赞数

分类专栏：技术文章文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/winkexin/article/details/129988477

版权

技术文章专栏收录该内容

356 篇文章 18 订阅

订阅专栏

该代码示例展示了如何使用Python的requests库获取网页内容，然后利用BeautifulSoup解析HTML，提取出所有的段落文本，并将这些文本保存到本地的txt文件中。此过程是网页抓取的基础，常用于数据挖掘和分析。

摘要由CSDN通过智能技术生成

直接上代码

import requests
from bs4 import BeautifulSoup

# 输入网页地址
url = input("请输入网页地址：")

# 发送请求并获取响应
response = requests.get(url)

# 解析HTML内容
soup = BeautifulSoup(response.content, "html.parser")

# 提取文本内容并保持原来的段落格式
text = ''
for paragraph in soup.find_all('p'):
    text += paragraph.get_text() + '\n\n'

# 保存为本地txt文件
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(text)

print("已保存为本地txt文件：output.txt")