直接上代码!!!
#!usr/bin/env python
#-*- coding:utf-8 -8-
#- 需求:爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
#step 1 :url
url = 'https://www.sogou.com/'
#step 2 :发起请求
#get方法会返回一个响应对象
response=requests.get(url=url)
#step 3 : 获取响应数据,首先要知道响应对象是什么 .text返回是是字符串形式的响应数据
page_text=response.text
print(page_text)
#step 4 :持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据结束!!!')
效果:
编写代码遇到的问题:
问题1.if _name_ == ‘_main_’ : 这个模式是错的。如果没有设置pycharm,是打不出长下划线的。
这个是python里的一个语法知识。
解决方法:file->setting->editor->Font->Droid Sans Mono
问题2:代码编译出错:把utf-8 写成 urt-8
LookupError: unknown encoding: urf-8
问题三:编译结果不分行。
解决方法:
1.编译结果界面:找到soft-wrap,点击。
2.编译界面:按下快捷键 ctrl+alt+L
编译结果界面:
编译界面
进入爬取的网页: 页面右上角有进入浏览器的选择。点击->就进入了