python | 尝试爬虫 xpath

VIP文章菜鸡小张1015

已于 2022-04-22 12:26:06 修改

阅读量1.8k

点赞数 1

分类专栏： python 文章标签： python 爬虫

于 2022-04-19 23:04:00 首次发布

本文链接：https://blog.csdn.net/weixin_46304228/article/details/124259092

版权

整理一下自己的笔记
是根据b站up主大大的小番茄的教程来看的，非常适合很新很新的新手。

首先要明白爬虫的思路：请求获取网页IP，根据已知的IP获取服务器返回的HTML，找到HTML里面自己需要的信息。

第一部分：HTML
大部分网页的构成分为三个部分：HTML（相当于骨架）、CSS（定义了外观）、JScript（表示功能）。爬虫主要针对的是HTML。

看到的HTML内容的<>称为标签。
常见的标签如下：

标签里都有一些标签的属性，比如id、style、class等等，标签拥有层级关系。
标签的层级关系
一个例子：
txt web
PS.关于URL
简而言之，就是网址。
http协议——端口80
https协议——端口443
这部分视频非常详细地简单阐述了一下，感兴趣或者有需要的可以看看。

第二部分：python中模拟请求的库
要注意的是：python访问HTML的时候会被拒绝，因此需要“伪装”成一个用户在浏览，因此需要修改头参数（user-agent），还要注意refer、cookie，这部分直接复制粘贴相应的代码即可。

requests库

关注

专栏目录