Python教程 - 之爬虫爬取在线教程转成pdf
作为一名程序员,经常要搜一些教程,有的教程是在线的,不提供离线版本,这就有些局限了。那么同样作为一名程序员,遇到问题就应该解决它,今天就来将在线教程保存为PDF以供查阅。
1、网站介绍
2、准备工作
2.1 软件安装
2.2 库安装
3、爬取内容
3.1 获取教程名称
3.2 获取目录及对应网址
3.3 获取章节内容
3.4 保存pdf
3.5 合并pdf
1、网站介绍
之前再搜资料的时候经常会跳转到如下图所示的在线教程:
01.教程样式
包括一些github的项目也纷纷将教程链接指向这个网站。经过一番查找,该网站是一个可以创建、托管和浏览文档的网站,其网址为:https://readthedocs.org 。在上面可以找到很多优质的资源。
该网站虽然提供了下载功能,但是有些教程并没有提供PDF格式文件的下载,如图:
02.下载
该教程只提供了 HTML格式文件的下载,还是不太方便查阅,那就让我们动手将其转成PDF吧!
2、准备工作
2.1 软件安装
由于我们是要把html转为pdf,所以需要手动wkhtmltopdf 。Windows平台直接在 http://wkhtmltopdf.org/downloads.html 下载稳定版的 wkhtmltopdf 进行安装,安装完成之后把该程序的执行路径加入到系统环境 $PATH 变量中,否则 pdfkit 找不到 wkhtmltopdf 就出现错误 “No wkhtmltopdf executable found”。Ubuntu 和 CentOS 可以直接用命令行进行安装
$ sudo apt-get install wkhtmltopdf # ubuntu
$ sudo yum intsall wkhtmltopdf # centos
2.2 库安装
-
pip install requests # 用于网络请求
-
pip install beautifulsoup4 # 用于操作html
-
pip install pdfkit # wkhtmltopdf 的Python封装包
-
pip install PyPDF2 # 用于合并pdf
3、爬取内容
本文的目标网址为:http://python3-cookbook.readthedocs.io/zh_CN/