爬虫:从入门到入狱(二)——网页收集器

直奔主题

        目前python3版本中已经有了非常完善的requests模块,我们主要是利用这个模块进行爬取网页数据

requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求。

如何使用:(requests模块的编码流程)
    - 指定url
    - 发起请求
    - 获取响应数据
    - 持久化存储

首先,打开终端安装环境

pip install requests

环境安装完成之后,我们就可以正式地开始进行爬取代码的主体的构建了

创建一个python文件,导入requests模块 

import requests
if __name__ == "__main__":

将目标网站的URL地址存储在字符串变量当中

一定是以“字符串”形式存储

URL="你爬取的目标网址的URL"

利用requests模块的get方法向目标网页发起请求

result=requests.get(url=URL)

然后将网页的内容储存在本地对应格式的文件下

with open("./test.html","w",encoding="utf-8") as fp
    fp.write(result.text)

打印结束提示语

print("爬取完毕!")

 一个简单的网页原始数据获取器就做好了,可以在本地预览爬取的网页

补充一个概念!

阿贾克斯请求:Ajax即Asynchronous Javascript And XML(异步JavaScript和XML)在 2005年被Jesse James Garrett提出的新术语,用来描述一种使用现有技术集合的‘新’方法,包括: HTML 或 XHTML, CSS, JavaScriptDOM, XML, XSLT, 以及最重要的XMLHttpRequest。 [3]  使用Ajax技术网页应用能够快速地将增量更新呈现在用户界面上,而不需要重载(刷新)整个页面,这使得程序能够更快地回应用户的操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值