web scraper
卤蛋实验室
公众号@卤蛋实验室,有问题可关注提问,每天都会在线答疑
展开
-
Web Scraper——轻量数据爬取利器
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据。当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了。可是当我们搜索相关教程时,往往会被高昂的学习成本所劝退。拿现在最通用的 python 爬虫来说,对于小白来说往往要跨过下面几座大山:学习一门编程语言:python学习网页的基础构成——HTML 标签和 CSS 选择器,有时候还要了解一些.原创 2020-05-23 15:33:47 · 1489 阅读 · 1 评论 -
Web Scraper 高级用法——使用 CouchDB 存储数据 | 简易数据分析 18
这是简易数据分析系列的第 18 篇文章。原文链接:https://www.cnblogs.com/web-scraper/p/web-scraper-couchdb.html利用 web scraper 抓取数据的时候,大家一定会遇到一个问题:数据是乱序的。在之前的教程里,我建议大家利用 Excel 等工具对数据二次加工排序,但还是存在部分数据无法排序的情况。其实解决数据乱序的方法也有,那...原创 2020-04-15 23:02:02 · 722 阅读 · 0 评论 -
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
这是简易数据分析系列的第 14 篇文章。本文首发于博客园:Web Scraper 翻页——利用 Link 选择器翻页今天我们还来聊聊 Web Scraper 翻页的技巧。这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之前介绍的分页器翻页方法不管用。我研究了一下才发现我漏讲了一种很常见的翻页场景。在 web scraper 翻页——分页器...原创 2019-11-29 22:05:37 · 385 阅读 · 0 评论 -
简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页
这是简易数据分析系列的第 10 篇文章。原文首发于博客园:简易数据分析 10。**友情提示:**这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍。我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远没有尽头。我们今天就是要讲讲,如何利用 Web Scr...原创 2019-08-14 08:33:18 · 885 阅读 · 0 评论 -
简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器
这是简易数据分析系列的第 9 篇文章。今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器。如何只抓取前 100 条数据?如果跟着上篇教程一步一步做下来,你会发现这个爬虫会一直运作,根本停不下来。网页有 1000 条数据,他就会抓取 1000 条,有 10W 条,就会抓取 10W 条。如果我们的需求很小,只想...原创 2019-08-07 08:44:46 · 494 阅读 · 0 评论 -
简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页
这是简易数据分析系列的第 8 篇文章。原文首发于博客园:简易数据分析 08。我们在Web Scraper 翻页——控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法。但是你在预览一些网站时,会发现随着网页的下拉,你需要点击类似于**「加载更多」**的按钮去获取数据,而网页链接一直没有变化。所以控制链接批量抓去数据的方案失效了,所以我们需要模拟点击**「加载更多」**按钮,去...原创 2019-08-01 08:27:45 · 1820 阅读 · 0 评论 -
简易数据分析 06 | 如何导入别人已经写好的 Web Scraper 爬虫
这是简易数据分析系列的第 6 篇文章。原文首发于博客园:简易数据分析 06上两期我们学习了如何通过 Web Scraper 批量抓取豆瓣电影 TOP250 的数据,内容都太干了,今天我们说些轻松的,讲讲 Web Scraper 如何导出导入 Sitemap 文件。前面也没有说,SItemap 是个什么东西,其实它就是我们操作 Web Scraper 后生成的爬虫文件,相当于 python ...原创 2019-07-18 08:09:35 · 240 阅读 · 0 评论 -
简易数据分析 07 | Web Scraper 抓取多条内容
这是简易数据分析系列的第 7 篇文章。在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息;在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息;今天我们要讲的是,如何抓取多个网页里的多类信息。这次的抓取是在简易数据分析 05的基础上进行的,所以我们一开始就解决了抓取多个网页的问题,下面全力解决如何抓取多类信息就可以了。我们在实操前先把逻辑理清:上几篇只抓取了一类元素:电影...原创 2019-07-24 21:28:59 · 630 阅读 · 0 评论 -
简易数据分析 03 | 浏览器中那些不为人知的使用技巧
原文首发于博客园:简易数据分析 03。这是简易数据分析系列的第 3 篇文章。上文我们安装了 Web Scraper 插件,我相信对于大部分人来说还是很简单的,这篇文章我们说些不一样的内容,讲讲浏览器里那些不被大多数人所知的骚操作。作为普通的使用者,大家用浏览器就是查阅信息,浏览网页。但在开发者的眼里,Chrome 浏览器提供了非常强大的开发能力。通过这篇文章的学习,大家可以掌握一些浏览器开...原创 2019-06-29 19:48:32 · 221 阅读 · 0 评论 -
简易数据分析 02 | Web Scraper 的下载与安装
这是简易数据分析系列的第 2 篇文章。原文首发于博客园:简易数据分析 02。上篇说了数据分析在生活中的重要性,从这篇开始,我们就要进入分析的实战内容了。数据分析数据分析,没有数据怎么分析?所以我们首先要学会采集数据。我调研了很多采集数据的软件,综合评定下来发现最好用的还是 Web Scraper,这是一款 Chrome 浏览器插件。![](https://image-1255652541...原创 2019-06-29 19:46:30 · 363 阅读 · 0 评论 -
简易数据分析 01 | 为什么我们要学习数据分析?
这是简易数据分析系列的第 1 篇文章。为什么叫简易数据分析?第 1 个原因是本教程面向纯小白用户,不写代码不写公式,迈出数据分析的第一步。第 2 个原因是生活中很多的数据分析场合,都是很轻量的,不需要上 Python 爬虫、高并发架构,机器学习等重武器,一个浏览器再加一个 Excel 就足够了:比如说某门课程论文交稿只有几天了,急需快速爬取数据进行数据分析,这时候临阵磨枪学习 Pyth...原创 2019-06-29 19:43:16 · 242 阅读 · 0 评论 -
简易数据分析 05 | Web Scraper 翻页——控制链接批量抓取数据
这是简易数据分析系列的第 5 篇文章。原文首发于博客园:Web Scraper 翻页——控制链接批量抓取数据上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以...原创 2019-07-09 22:12:48 · 700 阅读 · 0 评论 -
简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影
这是简易数据分析系列的第 4 篇文章。原文首发于博客园:简易数据分析 04。今天我们开始数据抓取的第一课,完成我们的第一个爬虫。因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:)有人之前可能学过一些爬虫知识,总觉得这是个复杂的东西,什么 HTTP、HTML、IP 池,在这里我们都不考虑这些东西。一是小的数据量根本不需要考虑,二是这些乱七八糟的东西根本没有说到爬虫的...原创 2019-07-04 07:58:20 · 518 阅读 · 0 评论