Python如何实现下载某度文库内容自由

最新推荐文章于 2024-08-06 17:20:59 发布

「已注销」

最新推荐文章于 2024-08-06 17:20:59 发布

阅读量1.2k

点赞数 3

分类专栏： python实战性项目 python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/yxczsz/article/details/128628482

版权

本文介绍如何使用Python爬虫下载百度文库内容，包括模拟浏览器请求、解析数据、图片保存、文字识别及内容保存到Word文档。通过requests、docx等模块实现，适合初学者学习。

摘要由CSDN通过智能技术生成

前言

是谁在baidu上搜资料看知识点，看到三分之一或者一半的时候，就需要花的啥才能看啊

今天就来教你们如何用Python搞定这些，让你想看啥就看啥

想直接拿源码的，点击文章末尾名片即可

前期准备

环境使用

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装
ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写
问号前面: url链接
问号后面: 请求参数/查询参数

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'
    # 请求参数
    data = {
   
        'docId': docId,
        'query': name,
        'recPositions': ''
    }
    # 请求头
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    #发送请求
    response = requests.get(url=url, params=data, headers=headers)
    # <Response [200]> 响应对象,