这是简易数据分析系列的第 16 篇文章。
文章首发于博客园:web scraper 高级用法——抓取属性信息。
今天我们讲一个用的较少的 Web Scraper 功能——抓取属性信息。
网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息。我们拿豆瓣电影250举个例子:
电影图片正常显示的时候是这个样子:
如果网络异常,图片加载失败,就会显示图片的默认文案,这个文案其实就是这个图片的属性信息:
我们查看一下这个结构的 HTML(查看方法可见 CSS 选择器的使用的第一节内容),就会发现图片的默认文案其实就是这个 <img/>
标签的 alt
属性:
我们可以看一下 HTML 文档里对 alt 属性的描述:
alt 属性是一个必需的属性,它规