学习一项技术,首先要明确技术要解决什么问题,以及产生什么价值。
爬虫是python老生常谈的一个方向。通过脚本自动获取互联网信息数据。然后让信息数据产生价值。
无论是我们用的谷歌,百度这类搜索引擎,还是天眼查,返利网这类网站,或者那些让人头疼的抢票,秒杀脚本都是爬虫技术的体现。
爬虫的本质就是要模拟人的操作,发起请求,获取正确的服务器返回的数据。所以网络这一块需要相对熟悉,尤其是http协议。在此基础上就可以正式开始脱发之旅。
迈出吃牢饭的第一步:cc攻击
由于爬虫的核心是发送模拟请求,其实就是基于TCP的一条http格式的字符串。
但这个复杂的字符串不需要我们自己拼接,我们可以借助一些轮子进行实现。一个是python内置的urllib,当然也可以使用更高级的、经过封装之后的轮子requests。也可以抛弃urllib,直接只学习requests也行。
Requests Python编写,基于urllib,自称HTTP for Humans(让HTTP服务人类)
特性:
支持HTTP连接保持和连接池,
支持使用cookie保持会话,
支持自动确定响