webmagic
一笑1874
这个作者很懒,什么都没留下…
展开
-
好用的java爬虫框架webmagic爬取CSDN
WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。在这四个组件中我们需要做的就是在PageProcessor中写自己的业务逻辑,比如如何解析当前页面,抽取有用信息,以及发现新的链接。下面是官方给出的架构图1.Downloa...原创 2018-03-09 14:19:11 · 13530 阅读 · 7 评论 -
使用selenium webdriver实现自动登录CSDN
我们使用webmagic爬取网站,最大的难点不是webmagic的使用,而是各大网站的反爬虫。比如登录后可见,比如限制IP一天中的访问次数、访问频率。今天我们就用webdriver来实现自动登录CSDN,拿到登陆后的cookies从而模拟登录。 首先在加入依赖<dependency> <groupId>us.codecraft</groupId...原创 2018-04-16 22:48:07 · 8860 阅读 · 1 评论 -
爬取微信公众号文章方案汇总
1、爬取公众号文章接口现在有两个地方可以搜索微信公众号文章,一是搜狗的微信搜索(weixin.sougou.com/) 可以搜文章,也可以搜公众号。未登陆的情况下搜文章的只能显示十页内容,每页有10篇文章。搜公众号的话只会显示最近10篇文章。登录的情况下搜文章可以显示所有文章,搜公众号依然是显示最近10篇。 第二个接口就是个人微信公众号的素材库可以添加其他公众号文章链接,这个是必须要登陆。登陆后会...原创 2018-04-17 09:59:47 · 19458 阅读 · 2 评论