Java数据采集实训--网页数据结构的分析

本文详述了网页数据采集前的基础知识,包括HTTP请求过程、响应状态码、响应头与体,以及请求方法、URL、请求头等关键概念。通过实例展示了在Chrome浏览器中查看HTTP请求与响应的步骤,强调了HTTP头在爬虫中的重要性,特别是GET和POST请求的区别,以及如何在开发者工具中找到JSON数据。
摘要由CSDN通过智能技术生成

    在编写数据采集程序前,我们都要去了解网络数据采集所涉及的知识点,以奠定网络数据采集的基础知识,方面理解代码实现过程。下面我将以这个网站为例,进行详细的分析说明。网站地址链接:https://www.lagou.com/jobs/list_%E5%A4%A7%E6%95%B0%E6%8D%AE/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=


目录

一、HTTP 请求过程

二、 HTTP响应

1) HTTP响应状态码

2)响应头

3)响应体

三、HTTP请求

(1)、请求方法:

(2)、请求的网址:

(3)、请求头:

(4)请求体:

四、查看网页信息存储页面 


一、HTTP 请求过程

        在浏览器中输人一个URL链接便可以在浏览器页面中浏览该URL的页面内容。从输人URL链接到浏览页面内容,整个过程是通过浏览器向网站所在服务器发送了一个HTTP请求,请求头会包含一些这个请求的信息,服务器接收到请求后进行处理和解析,返回一个HTTP响应,浏览器接收返回的响应,响应中包含页面的源代码等内容,浏览器接收到响应后对其内容进行解析,最终将网页内容呈现在浏览器窗口中。

 

1、使用Google 浏览器在浏览器的地址栏中输入要爬取数据网站的URL:

图1-1 


 2、在此页面进入开发者模式。可以通过快捷键F12、点击鼠标右键,选择检查,或以下方法打开。

图1-2 


3、开发模式显示信息位置切换。(默认显示在右方,可以切到下方显示)

​ 

图1-3


 4、切换到Network这一项查看请求页面的详细内容:(注:此处需要ctrl+R刷新一下才有内容出现。)

图1-4


5、等刷新完成,过滤栏中选择“Fetch/X

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

⚆Pearl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值