爬虫重要名词概念

  1. GET 和 POST
    • GET 查询参数都会显示在url 列表中
    • POST 查询参数和需要提交数据是隐藏在FORM表单里,不会再url 中显示
  2. URL
    • URL:统一资源定位器(网址)
    • https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
    • https: 协议
    • new.qq.com: 主机名,一台名字叫做new.qq.com的机器,这台机器在qq.com域名下
    • port: 端口号:80,/new.qq.com后面有一个:80 可以隐藏
    • /TWF20200/TWF2020032502924000.html: 访问资源的路径
    • #anchor: 具体页面定位使用
    • 在浏览器中请求的url会被编码(除英文字母,数字,部分标识外,其他全部用%和十六进制码进行编码,3个为一个汉字url编码工具
  3. User-Agent 用户代理
    • 记录用户的浏览器,操作系统等,为了让用户更好的获取HTML页面效果
  4. Refer
    • 表面当前这个请求是从哪个url过来的
  5. 状态码
    • 200:请求成功
    • 301:永久重定向
    • 302: 临时重定向
    • 403:服务器拒绝访问
    • 404: 请求失败(服务器无法找到客户端请求的资源)
    • 500:服务器内部请求错误
    • 其他状态码
      6.抓包工具 Chrome按键 F12
    • Elements:元素,网页源代码
    • Console: 控制台,打印信息
    • Sources: 整个文件加载的文件
    • NetW: 网络工作(信息抓包)能够看到很多的网页请求
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值