本文来源地址:https://blog.oliverxu.cn
最近我的博客新开了,一直在申请Google AdSense, 结果申请一次被拒一次,google发邮件说我的内容太少了, 这就让我很不爽了,虽然被拒绝的原因可能是其他的比如网站建站时间短等等,但是我还是想瞬间把我的博客的内容给增加上去,再一看,群里那些基友用的都是wordpress建站,OK,造个小爬虫吧!
虽然网上有自动采集文章的插件,但是你不觉得那个太low了吗!(虽然我的爬虫也很low)
好了,闲话少说,进入主题。
首先,需要确定一个目标网站,我爬的是xxx大学的博客。
网站分析
先看看我们要爬取的站点
这个大学可是很牛逼的呢!全球排名第? :lol:
爬虫运行的步骤:
- 爬取所有文章的入口链接和标题
- 提取每一篇文章中的需要的内容
- 一篇文章爬取结束后将数据写入数据库
- 将需要发布的文章自动发布到WP博客中
开始了,ARE YOU READY!
首先需要找到所有文章链接,我们来分析一下网页的规律