爬虫--web基础


1.IP及IP地址

IP(Internet Protocol,网际互连协议):是TCP/IP体系中的网络层协议。IP位于TCP/IP模型的网络层,对上可载送传输层各种协议的信息,对下可将IP信息包放到链路层。

IP地址:是在网络上分配给每台计算机或网络设备的数字标识,IP规定网络上所有的设备都必须有一个独一无二的IP地址,好比是邮件上都必须注明收件人地址,邮递员才能将邮件送到。同一设备不可以拥有多个IP地址,所有使用IP的网络设备至少有一个唯一的IP地址。

2.URL

URL(Uniform Resource Locator,统一资源定位符):是www的统一资源定位标志,即指网络地址(网址)
一般主要分为4部分:协议、主机、端口、路径。
(1)协议(protocol):如http,https(http的安全版),ftp等(都有各自的使用格式,如https的使用格式为https://)
(2)主机名(hostname):存放资源的服务器的域名系统(DNS) 主机名或 IP 地址
(3)端口号(port):整数,可选也可省略,省略时使用方案的默认端口。
(4)路径(path):由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。(就是网址后面通常有的…/…/)
(5)参数(parameters):这是用于指定特殊参数的可选项(有时去掉部分参数不影响网页的访问)。
(6)查询(query):可选,用于给动态网页传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值采用键值对形式,用“=”符号隔开。

3.Cookie

Cookie(Cookies):类型为“小型文本文件”(这个文件与特定的 Web 文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用),是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。

4.User Agent及查看方法

User Agent(UA,用户代理):是一个特殊字串,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等信息。
(一种较简单的反爬措施就是通过UA识别爬虫程序不是浏览器而拒绝程序的请求,这时通常程序添加用户代理池伪装成浏览器来攻克反爬)

查看自己的User Agent的方法:
(1)一般的浏览器都可在网页中通过F12键进入查看窗口,在 网络(Network) 选项,这时随便在当前网页再点开一个其他网页,这时查看窗口中网络(Network)选项的会显示你访问的详细信息,点击其中任一条,在窗口右侧各详细信息中则包含了你的User Agent。
(2)谷歌浏览器也可通过在网址输入框输入 about:version 后回车,进入页面中有显示你的User Agent。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值