用python写爬虫（基础）（2）----了解网页构造，才能知道我究竟需要什么数据

最新推荐文章于 2024-07-22 15:19:55 发布

又封ip了

最新推荐文章于 2024-07-22 15:19:55 发布

阅读量469

点赞数 1

分类专栏：初级爬虫系统学习文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/weixin_47278699/article/details/122342486

版权

初级爬虫系统学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

知道了用requests去请求网页，这是爬取的第一步，当然了既然能够请求成功，自然我们可以知道了要进入网页去抓我们想要的数据。要知道我们是从网页源代码当中找寻数据，而并非像一般的复制粘贴一样从浏览器表面获得。网页的构成无非是HTML、CSS、JavaScript三种语言构成，HTML 负责为网页添加内容，CSS 负责美化网页，JavaScript 负责让网页动起来。当然我们爬虫不需要将三大语言全部弄会，只需要知道几个特殊的标识符即可，所以爬虫是一个全方位的领域。这是豆瓣网站的部分源代码：&

摘要由CSDN通过智能技术生成

知道了用requests去请求网页，这是爬取的第一步，当然了既然能够请求成功，自然我们可以知道了要进入网页去抓我们想要的数据。

要知道我们是从网页源代码当中找寻数据，而并非像一般的复制粘贴一样从浏览器表面获得。网页的构成无非是HTML、CSS、JavaScript三种语言构成，HTML 负责为网页添加内容，CSS 负责美化网页，JavaScript 负责让网页动起来。当然我们爬虫不需要将三大语言全部弄会，只需要知道几个特殊的标识符即可，所以爬虫是一个全方位的领域。

这是豆瓣网站的部分源代码：


<!DOCTYPE html>
<html lang="zh-cmn-Hans" class="ua-mac ua-webkit book-new-nav">
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>豆瓣图书 Top 250</title>
  </head>
  <body>
    <div class="global-nav-items">
      <a href="https://www.douban.com">豆瓣</a>
      <a href="https://book.douban.com">读书</a>
      <a href="https://movie.douban.com">电影</a>
      <a href="https://music.douban.com">音乐</a>
      <a href="https://www.douban.com/location">同城</a>
      <a href="https://www.douban.com/group">小组</a>
      <a href="https://read.douban.com">阅读</a>

    </div>
  </body>
</html>

可以看到很多夹在尖括号 <> 中间的字母，它们叫做标签。

一般来说标签都是成对出现的，所以标签又分为 开始标签（比如 <title>）和 结束标签（比如 </title>）。开始标签、结束标签加上标签中间的内容就构成了元素。


h1	一级标题	<h1>......</h1>
h2	二级标题	<h2>......</h2>
p	段落区域	<p>........</p>
a	超链接	<a href="www...">链接</a>
img	图片区域	<img str='...' />
div	定义文档的块区域	<div>.......</div>

一般的网页基本上都是以这几个主要的标签为主导，可以通过按F12或者是右键查看源代码对照着看，大致就能弄懂整个网页的数据究竟隐藏在哪里，而爬虫就是要从源代码中爬到我们想要的数据。

黑科技

你知道吗网页上面的数据可以随意更改的！！！

通过F12打开开发者工具，点击左上角的小按键，再点击“2021书影音报告

我们就能看到开发者工具当中出现了对应的代码和字段。我们双击字段然后就可以随意改动，比我改成“导演”，然后点击任意地方我们就能发现浏览器上面的字段被我们改变了，即便关了开发

者工具依旧是导演。

不过网页刷新过后依旧恢复成原样子。

SO！！

不要轻易相信网页上的截图，修改的成本比PS还要低。

又封ip了

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
用python写爬虫（基础）（2）----了解网页构造，才能知道我究竟需要什么数据

知道了用requests去请求网页，这是爬取的第一步，当然了既然能够请求成功，自然我们可以知道了要进入网页去抓我们想要的数据。要知道我们是从网页源代码当中找寻数据，而并非像一般的复制粘贴一样从浏览器表面获得。网页的构成无非是HTML、CSS、JavaScript三种语言构成，HTML 负责为网页添加内容，CSS 负责美化网页，JavaScript 负责让网页动起来。当然我们爬虫不需要将三大语言全部弄会，只需要知道几个特殊的标识符即可，所以爬虫是一个全方位的领域。这是豆瓣网站的部分源代码：&
复制链接

扫一扫