这个三天学习python爬虫基础收获了不少知识,但是总感觉运用起来不是很顺心,因为基础不是很牢固的原因吧,很多知识点懵懂,希望大牛指点
1.requests
这个应该是爬虫的灵魂,爬虫必备,这是一个Python HTTP库,Requests是一个基于Apache2协议开源的Python HTTP库,号称是“为人类准备的HTTP库”。requests就是向网页发送请求的意思,
先来安装这个库 你只需要在你的pycharm终端运行
pip install requests
这个应该挺简单的吧
输入即可
还有系统自带的urllib和urllib2这个两个模块,也可以爬到数据,但我不怎么了解
发送请求
使用 Requests 发送网络请求非常简单。
一开始要导入 Requests 模块:
解释一下 requests.get就是我们数据请求的地址 就相当于把这个地址在百度打开 我们就可以得到他的网页源代码
右击查看这个网页源代码 差不多就是这个乱七八糟的
我们用一个变量resp
resp接受这个请求做出相应,然后我们可以取出里面的数据做分析,然后输出他,注意我这里是用文本的形式显示他,我就得到这个内容 requests会自动对响应内容编码,所以就可以通过resp.text取出响应文本了。因为我取出的文本和我winds系统不同我的系统是gbk所以我要转成utf-8
至于那个heard头,就是伪装,里面是你的主机系统牌子,意思是让游览器知道你不是爬虫在获取他的数据,你是人为浏览,我们按住f12,打开开发者工具里面 Network 随便打开一个数据请求
这样我们就可以爬里面的内容了