一个简单的Python爬虫程序-实现输入网址自动保存页面文本内容到txt

最新推荐文章于 2024-10-04 00:15:00 发布

执刀人的工具库

最新推荐文章于 2024-10-04 00:15:00 发布

阅读量2.4k

点赞数 2

分类专栏：技术文章文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/winkexin/article/details/129988440

版权

技术文章专栏收录该内容

356 篇文章 18 订阅

订阅专栏

该代码示例展示了如何使用Python的requests库获取网页内容，并结合BeautifulSoup解析HTML，提取出纯文本，然后保存到本地TXT文件中。这个过程常用于网页抓取和数据挖掘，保持了原文的段落格式。

摘要由CSDN通过智能技术生成

，使用requests和BeautifulSoup库，可以输入当前网页地址，自动保存当前页面的文字为本地txt文件，并保持原来的文本段落格式不变。

import requests
from bs4 import BeautifulSoup

# 输入网页地址
url = input("请输入网页地址：")

# 发送请求并获取响应
response = requests.get(url)

# 解析HTML内容
soup = BeautifulSoup(response.content, "html.parser")

# 提取文本内容
text = soup.get_text()

# 保存为本地txt文件
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(text)

print("已保存为本地txt文件：output.txt")