Python采集豆丁网站文档数据内容, 保存word文档

最新推荐文章于 2024-01-09 22:33:04 发布

「已注销」

最新推荐文章于 2024-01-09 22:33:04 发布

阅读量862

点赞数 15

分类专栏：爬虫小案例文章标签： python word 开发语言 pycharm 学习爬虫

本文链接：https://blog.csdn.net/weixin_62853513/article/details/134807720

版权

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

开发环境:

版本： python 3.8
编辑器：pycharm 2022.3.2

模块使用:

requests --> pip install requests
re
base64
docx --> pip install python-docx

第三方模块安装：

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

爬虫流程思路:

一. 数据来源分析

明确需求: 明确采集的网站以及数据内容
- 网址: https://max.book118.com/html/2021/0519/8055055075003102.shtm?vip_view=search
- 数据: 文档数据内容
  
  文档内容, 存在方式基本上图片的形式…
抓包分析
- 打开开发者工具: F12
- 刷新网页
- 点击查看图片数据 Img
  
  https://view-cache.book118.com/view19/M03/2F/33/wKh2D2ClvVuAKwlSAADEX_8Jeug078.png
- 通过关键字搜索, 找到所有文档内容所对应数据包位置
  
  关键字: 图片链接中一段参数 wKh2D2ClvVuAKwlSAADEX_8Jeug078 后缀前面那段参数
  数据包: https://openapi.book118.com/getPreview.html 包含所有图片数据内容

二. 代码实现步骤

发送请求: 模拟浏览器对于url地址发送请求
获取数据
解析数据
保存数据

代码展示

'''
python资料获取看这里噢！！ 小编 V：qian97378，即可获取：
文章源码/教程/资料/解答等福利，还有不错的视频学习教程和PDF电子书！
'''
# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json
import json
# 导入时间模块
import time
import base64
from docx import Document

“”"
文字识别:
1. 登陆百度云
2. 创建应用领取资源
3. 点击技术文档
- 获取token值 <代码现成>
- 使用API接口识别文字内容 <代码现成>
“”"

def main(img_content):
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    headers = {