最近发现CSDN的blog专栏还是很给力的,毕竟这是一整个系列的文章,学习某方面知识比较容易形成体系,而且前人的经验还是相当有参考价值的。
原先也开了两个,只是工作比较忙,加之lz比较懒,所以没啥人气,囧。
最近看书之余,也会去看看别人的专栏,虽然你看或不看,文章就在那里,但是不能上网的时候还是很蛋疼的
so,花了一个小时,写了个python脚本,只需要填下专栏文章列表某一页url【注意不是文章页面,是列表页面】,就能将整个专栏文章端下来。
分享之,想下整个系列文章的同学动手吧。
目前在win7 + py2.7测试通过,要有python环境哈,linux的同学需dos2unix处理下。
木有python环境的,下个吧,2.7,装一下很快的http://www.python.org/
PS.有很多坑,但是下大部分专栏还是没问题的(譬如文件名存在非法字符暂未处理),没异常处理,都怎么简单怎么来
发现坑的话希望能发我,逐步改进,后续有空的话搞掉python环境依赖&增加图形界面
--------------------------------------------------------------------------------------------------
实现思路:
1.到专栏列表页,正则匹配到最后一页的url
2.生成每页url列表,从第一页到最后一页的url
3.抓每一页,正则匹配到列表页里面文章标题和文章地址