爬虫-入门篇01

本文概述了爬虫的基本步骤,包括模拟客户端、发送网络请求、接受响应并解析,以及爬虫在抢票、数据抓取等领域的应用。还介绍了ROBOTS协议、HTTP与HTTPS的区别以及常见的响应状态码。
摘要由CSDN通过智能技术生成

以下是在开始接触爬虫时整理的一些笔记:

爬虫步骤:

1模拟客户端

2发送网络请求

3接受请求响应      有求必应

4解析响应

浏览器能做的,爬虫都能做

爬虫的用途:

       12306抢票

       网站上的投票

       短信轰炸

       爬取数据,进行市场调研和商业分析等等。。

      

分类:

       搜索引擎

       聚焦爬虫

ROBOTS协议:告诉搜索引擎哪些页面不能爬取

HTTP 

       超文本传输协议

       默认端口号:80

HTTPS(更安全,但性能更低)

       HTTP + SSL(安全套接字层)

       默认端口号:443

      

响应状态码:

200:成功

302:临时转移至新的url

307:临时转移至新的url

404:no fund

500:服务器内部错误

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值