这是简易数据分析系列的第 15 篇文章。
原文首发于博客园:简易数据分析 15 | Web Scraper 高级用法——CSS 选择器的使用
年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进阶用法。
今天我们就来学习一些 CSS 选择器的知识,辅助 Web Scraper 更好的定位要选择的元素。
一、定位 HTML 节点
HTML 是什么?它是一个网页的骨架,是最最基础的东西。比如说你现在看的这篇文章,其实就是一个网页,每一行字都是 HTML 里的一个 <p>
标签。
网页就是由一行一行的 HTML 标签垒起来的,所以我们用 Web Scraper 的 Selector 选择的元素,本质上都是 HTML 标签,都是一个一个的 HTML 节点。
使用 Web Scraper 的 Selector 自动选择元素时,有时候选的节点不准,抓不到数据,这时候就要我们手动调节 Selector 生成的代码。那么第一个问题就来了,如何在网页里定位我们需要的 HTML 节点?
我们按 F12 打开网页的调试面板时,调试面板左上角有个箭头,我们点击一下,等箭头变成蓝色时,移动到我们要抓取节点的位置,然后再点击一下,就会自动定位这个 HTML 节点的位置。
下面请我们的老朋友——豆瓣电影TOP250,来演示一下如何定位。比如说我们想定位《肖申克的救赎》的电影名字,按照上面的步骤走一遍流程,动图如下:
是不是非常的简单?借助这个小箭头,我们可以很轻松的定位 HTML 节点。
二、CSS 选择器
CSS 是个什么东西?先