【爬虫必备】安装和使用Xpath、正则表达式插件 以及 F12的抓包流程

本文以谷歌浏览器为例子,本文只用到了Xpath,正则,爬虫可以有css选择器的插件,可自己操作一下css选择器的下载使用

1. 安装Xpath插件

打开谷歌浏览器这里,打开扩展程序。
在这里插入图片描述
点击这里,进入谷歌插件应用中心

在这里插入图片描述
在这里搜索Xpath

在这里插入图片描述

我自己喜欢用这个,点击进去

在这里插入图片描述
进行安装

在这里插入图片描述
在这里插入图片描述

这样就安装成功了

在这里插入图片描述
点击这个按钮,把xpath固定在输入框的右侧,方便使用的时候调用这个插件。

在这里插入图片描述
这样就安装成功了。

2. 使用Xpath插件

以豆瓣为例子。
在这里插入图片描述
但我们一点击这个插件的时候
在这里插入图片描述

就会弹出这个黑色的xpath语法输入框,这个框左边是你输入的Xpath语法,右边的Xpath语法选择出来的结点数据。
在这里插入图片描述

当清楚好结点的Xpath语句之后,在左侧输入,就会匹配到这个结点数据了。

在这里插入图片描述

浏览器也会高亮提示,你选择的结点数据。并且右侧也会显示选择的结点信息

在这里插入图片描述
大概就是这个用法

3. 安装正则表达式插件

先打开这里
在这里插入图片描述
再打开这里

在这里插入图片描述
搜索正则表达式的插件

在这里插入图片描述
选择这一个插件

在这里插入图片描述
添加到浏览器上

在这里插入图片描述
这样就成功了安装完了~

在这里插入图片描述
然后把这个东西固定到输入栏的右侧,方便使用

在这里插入图片描述

4. 使用正则表达式插件

还是使用正则作为例子
在这里插入图片描述
点击插件,就会弹出这个插件

在这里插入图片描述

匹配所有的数字,和xpath一样,会高亮提示

在这里插入图片描述
简单的使用就是这样了。

但是这个插件有个问题,就是一离开,就会自动收起,很不方便,可以自行下载其他的插件使用,这里i只是做一个列子而已。


另外,大家可以尝试自己安装css选择器的插件

5. F12抓包,CSDN评论为例子

首先随便找一篇博文进行评论的抓取

5.1 Header

打开NetWork找到对应的包,进行分析

在这里插入图片描述
我们可以看到请求的urlhttp状态码请求方法之类的

在这里插入图片描述

我们爬虫的话,一般都要用请求头去模拟这个过程,因为这个请求头可以起到一个伪装的作用,让服务器知道这是一个正常的访问而不是一个爬虫访问。所以请求头还是很重要的。

在这里插入图片描述

这个就是传的参数,page就是页数,size就是页面大小。

5.2 Preview

在这里插入图片描述
我们就能看见这个评论信息了。这些就是动态数据。这种不是固定在网页源代码里面的。

就是你右键查看网页源代码就看不到的

在这里插入图片描述
是没有的,所以要用抓包来获取。
在这里插入图片描述

6. F12抓包,B站评论为例子

同样的,我们打开F12,找到这个评论的包。

注意B站这个是一边加载一边渲染的,就是必须滑倒下面有评论的地方,才能有请求的这个包。

比如说这种情况,这种情况是没有看见评论的,所以就是没有这个评论包的,因为根本就没有请求

在这里插入图片描述
我们要往下拉,知道看到评论,才会慢慢加载出来,这个评论包也会自然而然出现了。就能找到了!

在这里插入图片描述

同样的这种请求的动态数据是在网页源代码里面是看不到的。

在这里插入图片描述

  • 14
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
正则表达式搜索扩展代替Chrome的CTRL + F 在键入时动态突出显示网页上的正则表达式匹配项。使用ENTER和SHIFT + ENTER或单击鼠标中的箭头来循环进行匹配。通过扩展选项自定义突出显示和文本颜色。您将需要刷新任何已经打开的选项卡,以加载内容脚本 2015年10月27日:在选项页面7/13/2016中添加了不区分大小写的搜索选项:为清单7/30/2016添加了“ file:// * / *”扩展名:使用pull request https:// github更新了程序包 com / rogershen / chrome-regex-search / commit / c5ab1bbc33a1ec8ddd254b640b8786cc621e6644 9/2/2016:更新了带有请求请求的程序包https://github.com/rogershen/chrome-regex-search/pull/6此更新将搜索历史添加到了用最右边的按钮显示和隐藏的弹出窗口9/23/2016:将不区分大小写的搜索选项更改为在弹出窗口上的切换1/24/2019:更新了带有两个拉取请求的包,以启用复制命令并自动关注父元素。此扩展是开放源代码:https://github.com/rogershen/chrome-regex-search如果您有任何问题,请向https://github.com/rogershen/chrome-regex-search/issues报告键盘快捷键: ENTER:选择下一个正则表达式匹配SHIFT + ENTER:选择上一个正则表达式匹配要设置键盘快捷键以打开弹出窗口:在浏览器中,转到chrome:// extensions /查找“ Chrome Regex Search”,然后点击相应的框,输入您的自定义命令(即CTRL + SHIFT + F)现在,只要您想打开弹出窗口,只需输入自定义命令即可。右键单击图标并选择“选项”,或转到chrome:// extensions /,然后单击“ Chrome Regex搜索”行中的“选项”,即可找到扩展选项。 支持语言:English (United States)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小生凡一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值