在编写数据采集程序前,我们都要去了解网络数据采集所涉及的知识点,以奠定网络数据采集的基础知识,方面理解代码实现过程。下面我将以这个网站为例,进行详细的分析说明。网站地址链接:https://www.lagou.com/jobs/list_%E5%A4%A7%E6%95%B0%E6%8D%AE/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=
目录
一、HTTP 请求过程
在浏览器中输人一个URL链接便可以在浏览器页面中浏览该URL的页面内容。从输人URL链接到浏览页面内容,整个过程是通过浏览器向网站所在服务器发送了一个HTTP请求,请求头会包含一些这个请求的信息,服务器接收到请求后进行处理和解析,返回一个HTTP响应,浏览器接收返回的响应,响应中包含页面的源代码等内容,浏览器接收到响应后对其内容进行解析,最终将网页内容呈现在浏览器窗口中。
1、使用Google 浏览器在浏览器的地址栏中输入要爬取数据网站的URL:
图1-1
2、在此页面进入开发者模式。可以通过快捷键F12、点击鼠标右键,选择检查,或以下方法打开。
图1-2
3、开发模式显示信息位置切换。(默认显示在右方,可以切到下方显示)
图1-3
4、切换到Network这一项查看请求页面的详细内容:(注:此处需要ctrl+R刷新一下才有内容出现。)
图1-4
5、等刷新完成,过滤栏中选择“Fetch/X