Chrome安装爬虫必备插件:Xpath Helper高效解析网页内容

Chrome安装爬虫必备插件:Xpath Helper(最新教程)

1. 谷歌浏览器xpath helper插件的安装和使用

要想利用lxml模块提取数据,需要我们掌握xpath语法规则。接下来我们就来了解一下xpath helper插件,它可以帮助我们得到页面的xpath语句

2. 谷歌浏览器xpath helper插件的作用

xpath helper插件是一款免费的Chrome爬虫网页解析工具。

可以帮助用户解决在获取xpath路径时无法正常定位等问题。

该插件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码,同时你还能对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中。

3. 谷歌浏览器xpath helper插件的安装和使用

我们以windows为例进行xpath helper的安装

3.1 xpath helper插件的安装

1.下载Chrome插件 XPath Helper

在这里插入图片描述

可以在chrome应用商城进行下载,如果无法下载,也可以从下面的链接进行下载

下载地址:链接:https://pan.baidu.com/s/1DVfxg4hnXB4dHJHhb6Wfrg
提取码:srp9

把文件夹拖入到开启开发者模式的chrome浏览器扩展程序界面
在这里插入图片描述

重启浏览器后,访问url之后在页面中点击xpath图标,就可以使用了

4. XPath调试

安装好Xpath Helper后,我们再来抓取共产党新闻网文章xpath 路径。

打开xpath-helper工具
按住shift键,选择要提取xpathl路径的元素,提取的结果将被显示在旁边的 Result 文本框中。
在这里插入图片描述

5. 附加内容

写过爬虫和网页解析的人都知道,在定位、获取xpath路径上要花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。

在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。

这里分享一个chrome浏览器的小技巧:

比如: 现在我们在抓取 共产党新闻网的文章xpath 路径

打开 开发者工具,鼠标选中标题元素上,右键–>Copy XPath 即可获取xpath。
执行copy xpath,获取标题元素在当前父节点的xpath

/html/body/div[6]/div[1]/ul[1]/li[1]/a

在这里插入图片描述

1
执行copy full xpath,获取标题元素的在html文档中的完整xpath
在这里插入图片描述

/html/body/div[6]/div[1]/ul[1]/li[1]/a

这样其实还不够方便,毕竟你复制了没法即时查看正确与否。所以我们需要上面这款开源的爬虫利器!

  • 35
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
提取,编辑和轻松评估XPath查询。 XPath的助手很容易提取,编辑,并在任何网页评估XPath查询。 重要提示:安装此扩展后,必须重新加载任何现有的选项卡或重新启动Chrome浏览器扩展工作。 说明: 1.打开一个新的标签,并导航到任何网页。 2.按Ctrl-Shift键-X(或OS X命令移-X),或单击工具栏上的XPath的助手按钮,以打开XPath助手控制台。 3.按住Shift键将鼠标悬停在页面上的元素。查询框将不断更新,以显示鼠标指针下方的元件XPath查询,结果框将显示当前查询的结果。 4.如果需要,请在控制台直接编辑XPath查询。结果框会立即反映更改。 5.重复步骤(2)关闭控制台。 如果控制台在你的方式获得,按住Shift键,然后将鼠标移动到它; 它会移动到页面的相对侧。 一个忠告:当渲染HTML表格,浏览器插入人工<TBODY>标记到DOM,这将在随后通过该扩展提取查询显示出来。 Extract, edit, and evaluate XPath queries with ease. XPath Helper makes it easy to extract, edit, and evaluate XPath queries on any webpage. IMPORTANT: After installing this extension, you must reload any existing tabs or restart Chrome for the extension to work. Instructions: 1. Open a new tab and navigate to any webpage. 2. Hit Ctrl-Shift-X (or Command-Shift-X on OS X), or click the XPath Helper button in the toolbar, to open the XPath Helper console. 3. Hold down Shift as you mouse over elements on the page. The query box will continuously update to show the XPath query for the element below the mouse pointer, and the results box will show the results for the current query. 4. If desired, edit the XPath query directly in the console. The results box will immediately reflect your changes. 5. Repeat step (2) to close the console. If the console gets in your way, hold down Shift and then move your mouse over it; it will move to the opposite side of the page. One word of caution: When rendering HTML tables, Chrome inserts artificial <tbody> tags into the DOM, which will consequently show up in queries extracted by this extension.
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值