引入requests库
import requests
requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
我们把这个响应返回的结果赋值给变量res
res = requests.get(‘URL’)
文本爬取
import requests
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
print(res.status_code)# 第3行代码是在打印res的响应状态码,它可以用来检查我们的requests请求是否得到了成功的响应。我们看到终端结果显示了200,这个数字代表服务器同意了请求,并返回了数据给我们
print(type(res))# 这代表着:res是一个对象,属于requests.models.Response类
# 把Response对象的内容以字符串的形式返回
novel = res.text
# 创建一个名为《三国演义》的txt文档,指针放在文件末尾,追加内容
k = open('《三国演义》.txt','a+')
# 写进文件中
k.write(novel)
# 关闭文档
k.close()
结果显示:
200
<class ‘requests.models.Response’>
三国演义
作者:罗贯中