零、何为爬虫
网络爬虫(Web Spider) ,网络蜘蛛,这只蜘蛛就在“互联网”上爬来爬去。
通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
爬虫的一般流程:
1、先获取网页的 html 文档
2、浏览器打开网页源代码分析各节点
3、获取数据
4、利用数据或存储数据
壹、审查元素
写爬虫一定少不了对元素的审查,这是极其重要的基础
检查元素这种方法可以很快的帮你找到你感兴趣地方的代码
firefox:感兴趣的地方 右击-->检查元素 快捷键:Fn+F12
chrome:感兴趣的地方 右击-->检查
你也可以直接查看网页源代码 右键-->查看页面源代码 快捷键:CTRL+U
贰、requests库
在python3中,我们可以使用urllib.request和requests进行网页请求
urllib.requests是内置库,只要你安装了python就能使用。
requests是一个很强大的第三方库,但是需要自己安装
安装requests库
pip install requests
接下来我们使用requests发送一个网络请求,去请求百度的页面
import requests
r = requests.get("https://www.baidu.com/")
如此,就能以get方式去请求百度,其他的post,put等方式与此类似
那么我们已经发出了请求,会得到怎样的回应呢?
--snip--
print(r.text)
结果: 我们看到有一些好像有一些乱码
我们可以通过下一行代码解决此问题
r.encoding = 'utf-8'
结果:
我们还可以定制请求头等等方法,详情可参考requests中文手册https://requests.readthedocs.io/zh_CN/latest/
叁、小结
好了,作为普及大概先说这么多,明天继续,本来今天是不想写的,因为今天事情比较多,但没办法,养成了习惯了,哈哈哈哈,那就写一篇短点的,明天在补回来,哎,不行,明天要体测,真要命啊。