Python实现某du文库vip内容下载，保存成PDF

「已注销」

于 2023-02-24 18:50:51 发布

阅读量2k

点赞数 3

分类专栏： python python实战性项目文章标签： python pdf 开发语言

本文链接：https://blog.csdn.net/yxczsz/article/details/129206713

版权

前言

是谁，是谁在网页上搜索往年考试卷题+答案的时候只能阅读前两页的选择题，是谁在搜几千字的文档资料只能看25%，是谁在百度文库找七找八的时候所有的东西都要付费才能继续看…

我先说是我自己

我又不经常用，只有偶尔需要看看，还要我掏钱包，我说不行，绝对不行

什么都行谈钱不行

咱没钱，咱有技术，直接让python帮我

今天就来分享下 👇

用Python实现某du文库vip内容下载, 保存到word文档

前期准备

环境使用

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装
ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写
问号前面: url链接
问号后面: 请求参数/查询参数

源码.点击.领取.即可

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'
    # 请求参数
    data = {
   
        'docId': docId,
        'query': name,
        'recPositions': ''
    }
    # 请求头
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    #发送请求
    response = requests.get(url=url, params=data, headers=headers)
    # <R