以下是在开始接触爬虫时整理的一些笔记:
爬虫步骤:
1模拟客户端
2发送网络请求
3接受请求响应 有求必应
4解析响应
浏览器能做的,爬虫都能做
爬虫的用途:
12306抢票
网站上的投票
短信轰炸
爬取数据,进行市场调研和商业分析等等。。
分类:
搜索引擎
聚焦爬虫
ROBOTS协议:告诉搜索引擎哪些页面不能爬取
HTTP
超文本传输协议
默认端口号:80
HTTPS(更安全,但性能更低)
HTTP + SSL(安全套接字层)
默认端口号:443
响应状态码:
200:成功
302:临时转移至新的url
307:临时转移至新的url
404:no fund
500:服务器内部错误