接上一篇,博主目前所要做的任务,除了要将图片转成pdf外,可能还需要根据爬去站点的内容来合成一篇pdf格式文章,
python中是能够做到这一点的,当然这个前提你要手写html的head,然后将爬取下的内容(注:内容为html样式)作为body的内容。
python中的pdfkit包能够达到这方面的要求,当然前提要下载下来安装好,安装的方法很简单自行百度!
直接上代码:
def content_pdf(item):
"""
将content内容保存为pdf格式
:param content:字符串
:return:
"""
html = '<html><head><meta charset="UTF-8"></head>' \
'<body><div align="center"><p>%s</p></div></body></html>' % item['content']
path_wk = r'C:\soft\wkhtmltopdf\bin\wkhtmltopdf.exe' # 安装位置
try:
out_pdf = file_path(item)
config = pdfkit.configuration(wkhtmltopdf=path_wk)
pdfkit.from_string(html, out_pdf.format(item['title']), configuration=config)
item['download_status'] = 1
return item
except Exception as e:
print(e)
注意:由于爬取内容html的css缺少,所以当前生成的pdf是不美观的。所以说这个就要根据自己的能力来添加样式,达到符合阅读的要求!