![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 74
爬虫学习记录
月光晒了很凉快
天道酬勤。
展开
-
在学习爬虫前的准备
获取网页内容。我们会通过代码给一个网站服务器发送请求,它会返回给我们网页上的内容。在我们平时使用浏览器访问服务器内容是,本质上也是向服务器发送一个请求,然后服务器返回网页上的内容。只不过浏览器还会进行一个额外的步骤,就是把内容渲染成直观优美的页面,方便给用户展现。而用程序获取的内容,因为没有经过渲染,所以我们看到的内容更加原始。解析网页内容。我们在上一步可以获取到整个网页的内容,由于内容过于繁杂,可能有许多数据是我们并不想要的。原创 2024-01-09 00:27:35 · 1468 阅读 · 0 评论 -
爬虫你需要知道的:什么是http请求
我们将通过发送http请求来获取网页内容。http是HyperText Transfer Protocol的缩写,意思是超文本传输协议,它是一种客户端和服务器之间的请求响应协议。浏览器就可以看作是一个客户端,当我们在浏览器地址栏输入想访问的网址,按下回车后,浏览器就会像服务端发送一个http请求,然后等待服务器返回给浏览器响应。http有多种不同的请求方法,最常见的是get和post。由于爬虫程序大部分都是在获取数据,所以我们发送的请求大部分情况下都用get方法。原创 2024-01-11 00:38:50 · 460 阅读 · 0 评论