Python爬虫——爬取搜狗页面

该代码示例展示了如何使用Python的requests库爬取搜狗首页的数据,处理编码问题,并将页面内容保存为HTML文件。主要涉及的步骤包括设置URL,发起GET请求,获取响应数据,以及文本存储。在编码时遇到了Unterminatedstringliteral错误,以及误写编码名称urt-8导致的LookupError,这些问题通过修正编码名称和调整编辑器设置得以解决。
摘要由CSDN通过智能技术生成

直接上代码!!!

#!usr/bin/env python
#-*- coding:utf-8 -8-
#- 需求:爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    #step 1 :url
    url = 'https://www.sogou.com/'
    #step 2 :发起请求
    #get方法会返回一个响应对象
    response=requests.get(url=url)
    #step 3 : 获取响应数据,首先要知道响应对象是什么  .text返回是是字符串形式的响应数据
    page_text=response.text
    print(page_text)
    #step 4 :持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

效果:

 

编写代码遇到的问题:

问题1.if   _name_ == ‘_main_’  :   这个模式是错的。如果没有设置pycharm,是打不出长下划线的。

        这个是python里的一个语法知识。 

       

  解决方法:file->setting->editor->Font->Droid Sans Mono

 

问题2:代码编译出错:把utf-8 写成 urt-8

         LookupError: unknown encoding: urf-8

问题三:编译结果不分行。

解决方法:

        1.编译结果界面:找到soft-wrap,点击。

        2.编译界面:按下快捷键 ctrl+alt+L

 编译结果界面:

编译界面

 

 进入爬取的网页:  页面右上角有进入浏览器的选择。点击->就进入了

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值