爬虫:模拟浏览器发送请求获取数据-----> 提取URL
URL:一个网址/链接的组成部分
形式:scheme:// host[:port#] / patch / ... [?query-string] [#anchor]
scheme: 协议(例如:http,https,ftp)重要
host:服务器的IP地址或者域名(例如:192.168.1.1 / www.baidu.com)
port:服务器端口(协议默认端口:80 / 443)
patch:被访问资源的路径
query-string:参数,发送给HTTP服务器的数据(在url中一般以问号开头,意义不大)
anchor:锚(跳转到网址指定位置,不会重新发送请求,响应是一样的)