- GET 和 POST
- GET 查询参数都会显示在url 列表中
- POST 查询参数和需要提交数据是隐藏在FORM表单里,不会再url 中显示
- URL
- URL:统一资源定位器(网址)
- https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
- https: 协议
- new.qq.com: 主机名,一台名字叫做new.qq.com的机器,这台机器在qq.com域名下
- port: 端口号:80,/new.qq.com后面有一个:80 可以隐藏
- /TWF20200/TWF2020032502924000.html: 访问资源的路径
- #anchor: 具体页面定位使用
- 在浏览器中请求的url会被编码(除英文字母,数字,部分标识外,其他全部用%和十六进制码进行编码,3个为一个汉字url编码工具
- User-Agent 用户代理
- 记录用户的浏览器,操作系统等,为了让用户更好的获取HTML页面效果
- Refer
- 表面当前这个请求是从哪个url过来的
- 状态码
- 200:请求成功
- 301:永久重定向
- 302: 临时重定向
- 403:服务器拒绝访问
- 404: 请求失败(服务器无法找到客户端请求的资源)
- 500:服务器内部请求错误
- 其他状态码
6.抓包工具 Chrome按键 F12 - Elements:元素,网页源代码
- Console: 控制台,打印信息
- Sources: 整个文件加载的文件
- NetW: 网络工作(信息抓包)能够看到很多的网页请求
爬虫重要名词概念
最新推荐文章于 2022-07-11 07:35:00 发布