直奔主题
目前python3版本中已经有了非常完善的requests模块,我们主要是利用这个模块进行爬取网页数据
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
如何使用:(requests模块的编码流程)
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储
首先,打开终端安装环境
pip install requests
环境安装完成之后,我们就可以正式地开始进行爬取代码的主体的构建了
创建一个python文件,导入requests模块
import requests
if __name__ == "__main__":
将目标网站的URL地址存储在字符串变量当中
一定是以“字符串”形式存储
URL="你爬取的目标网址的URL"
利用requests模块的get方法向目标网页发起请求
result=requests.get(url=URL)
然后将网页的内容储存在本地对应格式的文件下
with open("./test.html","w",encoding="utf-8") as fp
fp.write(result.text)
打印结束提示语
print("爬取完毕!")
一个简单的网页原始数据获取器就做好了,可以在本地预览爬取的网页
补充一个概念!
阿贾克斯请求:Ajax即Asynchronous Javascript And XML(异步JavaScript和XML)在 2005年被Jesse James Garrett提出的新术语,用来描述一种使用现有技术集合的‘新’方法,包括: HTML 或 XHTML, CSS, JavaScript, DOM, XML, XSLT, 以及最重要的XMLHttpRequest。 [3] 使用Ajax技术网页应用能够快速地将增量更新呈现在用户界面上,而不需要重载(刷新)整个页面,这使得程序能够更快地回应用户的操作。