前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
开发环境:
-
版 本: python 3.8
-
编辑器:pycharm 2022.3.2
模块使用:
-
requests --> pip install requests
-
re
-
base64
-
docx --> pip install python-docx
第三方模块安装:
win + R 输入cmd 输入安装命令 pip install 模块名
(如果你觉得安装速度比较慢, 你可以切换国内镜像源)
爬虫流程思路:
一. 数据来源分析
-
明确需求: 明确采集的网站以及数据内容
-
网址: https://max.book118.com/html/2021/0519/8055055075003102.shtm?vip_view=search
-
数据: 文档数据内容
文档内容, 存在方式基本上图片的形式…
-
-
抓包分析
-
打开开发者工具: F12
-
刷新网页
-
点击查看图片数据 Img
https://view-cache.book118.com/view19/M03/2F/33/wKh2D2ClvVuAKwlSAADEX_8Jeug078.png
-
通过关键字搜索, 找到所有文档内容所对应数据包位置
关键字: 图片链接中一段参数 wKh2D2ClvVuAKwlSAADEX_8Jeug078 后缀前面那段参数
数据包: https://openapi.book118.com/getPreview.html 包含所有图片数据内容
-
二. 代码实现步骤
-
发送请求: 模拟浏览器对于url地址发送请求
-
获取数据
-
解析数据
-
保存数据
代码展示
'''
python资料获取看这里噢!! 小编 V:qian97378,即可获取:
文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书!
'''
# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json
import json
# 导入时间模块
import time
import base64
from docx import Document
“”"
文字识别:
1. 登陆百度云
2. 创建应用 领取资源
3. 点击技术文档
- 获取token值 <代码现成>
- 使用API接口识别文字内容 <代码现成>
“”"
def main(img_content):
url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
headers = {