Python采集豆丁网站文档数据内容, 保存word文档

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

开发环境:

  • 版 本: python 3.8

  • 编辑器:pycharm 2022.3.2

模块使用:

  • requests --> pip install requests

  • re

  • base64

  • docx --> pip install python-docx

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

爬虫流程思路:

一. 数据来源分析
  1. 明确需求: 明确采集的网站以及数据内容

    • 网址: https://max.book118.com/html/2021/0519/8055055075003102.shtm?vip_view=search

    • 数据: 文档数据内容

      文档内容, 存在方式基本上图片的形式…

  2. 抓包分析

    • 打开开发者工具: F12

    • 刷新网页

    • 点击查看图片数据 Img

      https://view-cache.book118.com/view19/M03/2F/33/wKh2D2ClvVuAKwlSAADEX_8Jeug078.png

    • 通过关键字搜索, 找到所有文档内容所对应数据包位置

      关键字: 图片链接中一段参数 wKh2D2ClvVuAKwlSAADEX_8Jeug078 后缀前面那段参数
      数据包: https://openapi.book118.com/getPreview.html 包含所有图片数据内容

二. 代码实现步骤
  1. 发送请求: 模拟浏览器对于url地址发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

代码展示

'''
python资料获取看这里噢!! 小编 V:qian97378,即可获取:
文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书!
'''
# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json
import json
# 导入时间模块
import time
import base64
from docx import Document

“”"
文字识别:
1. 登陆百度云
2. 创建应用 领取资源
3. 点击技术文档
- 获取token值 <代码现成>
- 使用API接口识别文字内容 <代码现成>
“”"

def main(img_content):
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    headers = {
   
        
  • 15
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值