Python爬虫——爬取搜狗页面

最新推荐文章于 2024-08-02 18:13:28 发布

待在图书馆的毛毛虫

最新推荐文章于 2024-08-02 18:13:28 发布

阅读量536

点赞数

分类专栏： python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/wxhxiaowen/article/details/130112947

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

该代码示例展示了如何使用Python的requests库爬取搜狗首页的数据，处理编码问题，并将页面内容保存为HTML文件。主要涉及的步骤包括设置URL，发起GET请求，获取响应数据，以及文本存储。在编码时遇到了Unterminatedstringliteral错误，以及误写编码名称urt-8导致的LookupError，这些问题通过修正编码名称和调整编辑器设置得以解决。

摘要由CSDN通过智能技术生成

直接上代码！！！

#!usr/bin/env python
#-*- coding:utf-8 -8-
#- 需求：爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    #step 1 :url
    url = 'https://www.sogou.com/'
    #step 2 :发起请求
    #get方法会返回一个响应对象
    response=requests.get(url=url)
    #step 3 : 获取响应数据，首先要知道响应对象是什么  .text返回是是字符串形式的响应数据
    page_text=response.text
    print(page_text)
    #step 4 :持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

效果：