CSDN博客专栏文章批量下载脚本[python实现]

本文介绍了一个Python脚本,用于批量下载CSDN博客专栏的所有文章。用户只需提供专栏的列表页面URL,脚本将自动抓取并下载全部内容。已在Windows + Python 2.7环境下测试通过,适用于没有离线阅读需求的场景。脚本存在一些已知问题,如未处理非法字符,但大部分专栏文章下载无障碍。作者欢迎反馈并计划未来改进。
摘要由CSDN通过智能技术生成

    最近发现CSDN的blog专栏还是很给力的,毕竟这是一整个系列的文章,学习某方面知识比较容易形成体系,而且前人的经验还是相当有参考价值的。

    原先也开了两个,只是工作比较忙,加之lz比较懒,所以没啥人气,囧。

    最近看书之余,也会去看看别人的专栏,虽然你看或不看,文章就在那里,但是不能上网的时候还是很蛋疼的


    so,花了一个小时,写了个python脚本,只需要填下专栏文章列表某一页url【注意不是文章页面,是列表页面】,就能将整个专栏文章端下来。

    分享之,想下整个系列文章的同学动手吧。

   

    目前在win7 + py2.7测试通过,要有python环境哈,linux的同学需dos2unix处理下。

    木有python环境的,下个吧,2.7,装一下很快的http://www.python.org/

    PS.有很多坑,但是下大部分专栏还是没问题的(譬如文件名存在非法字符暂未处理),没异常处理,都怎么简单怎么来

    发现坑的话希望能发我,逐步改进,后续有空的话搞掉python环境依赖&增加图形界面

--------------------------------------------------------------------------------------------------

实现思路:

1.到专栏列表页,正则匹配到最后一页的url

2.生成每页url列表,从第一页到最后一页的url

3.抓每一页,正则匹配到列表页里面文章标题和文章地址

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值