Java数据采集实训--网页数据结构的分析

最新推荐文章于 2024-02-02 09:43:51 发布

⚆Pearl

最新推荐文章于 2024-02-02 09:43:51 发布

阅读量1.2k

点赞数

分类专栏：大数据项目实战文章标签： eclipse hadoop hdfs 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58330979/article/details/123737107

版权

本文详述了网页数据采集前的基础知识，包括HTTP请求过程、响应状态码、响应头与体，以及请求方法、URL、请求头等关键概念。通过实例展示了在Chrome浏览器中查看HTTP请求与响应的步骤，强调了HTTP头在爬虫中的重要性，特别是GET和POST请求的区别，以及如何在开发者工具中找到JSON数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在编写数据采集程序前，我们都要去了解网络数据采集所涉及的知识点，以奠定网络数据采集的基础知识，方面理解代码实现过程。下面我将以这个网站为例，进行详细的分析说明。网站地址链接：https://www.lagou.com/jobs/list_%E5%A4%A7%E6%95%B0%E6%8D%AE/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=

目录

一、HTTP 请求过程

二、 HTTP响应

1) HTTP响应状态码

三、HTTP请求

（1）、请求方法：

(2)、请求的网址:

(3)、请求头：

(4)请求体：

四、查看网页信息存储页面

一、HTTP 请求过程

在浏览器中输人一个URL链接便可以在浏览器页面中浏览该URL的页面内容。从输人URL链接到浏览页面内容，整个过程是通过浏览器向网站所在服务器发送了一个HTTP请求,请求头会包含一些这个请求的信息，服务器接收到请求后进行处理和解析，返回一个HTTP响应，浏览器接收返回的响应，响应中包含页面的源代码等内容，浏览器接收到响应后对其内容进行解析，最终将网页内容呈现在浏览器窗口中。

1、使用Google 浏览器在浏览器的地址栏中输入要爬取数据网站的URL：

图1-1

2、在此页面进入开发者模式。可以通过快捷键F12、点击鼠标右键，选择检查，或以下方法打开。

图1-2

3、开发模式显示信息位置切换。（默认显示在右方，可以切到下方显示）

图1-3

4、切换到Network这一项查看请求页面的详细内容：（注：此处需要ctrl+R刷新一下才有内容出现。）

图1-4

5、等刷新完成，过滤栏中选择“Fetch/X

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

⚆Pearl 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。