Python爬虫实战 下载原力创付费文档---全屏阅览式

下载原力创付费文档—全屏阅览式

一、项目需求:

从目标网址下载付费文档,并保存为word形式
网址点这里

二、思路
  • 1.利用selenium实现异步加载,获取图片url
  • 2.爬取图片
  • 3.将图片写进word文档

三、技术点

  • 1.python + selenium自动化
  • 2.python + docx

四、环境

python3.6 + selenium + docx

安装(推荐使用清华源):
   pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/
   pip install python-docx -i https://pypi.tuna.tsinghua.edu.cn/simple/

五、代码

import time

from selenium import webdriver
from selenium.webdriver.common import keys
import requests
from docx import Document
from docx.shared import Inches


class YuanLC:
 def __init__(self, url, filename):

     # 创建session网络请求对象
     headers = {
   
         "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,a"
                   "pplication/signed-exchange;v=b3;q=0.9",
         "Accept-Encoding": "gzip, deflate, br",
         "Accept-Language": "zh-CN,zh;q=0.9",
         "Cache-Control": "no-cache",
         "Connection": "keep-alive",
         "Cookie": "CLIENT_SYS_UN_ID=3rvgCl
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值