解决谷歌翻译复制的PDF的换行乱七八糟问题

问题叙述:基于作为一名英语不怎么地的小硕还要看论文的强大需求驱动,需要谷歌翻译:然后下面是什么鬼,对于一个有强迫症的病人,这种格式看着浑身难受,无法安心科研,又加之,懒癌晚期,没有办法一行一行修改,因此要改善这样的情况:


好好的一句话被拆成四分五裂,好好的单词也被拆分,语义也因为乱七八糟的分段而无法理解,看上去很难受啊

于是,我准备解决这个问题,用最小力气去解决,大概核心6行代码就可以了,但是需要先保证你有FIrefox浏览器,安装了selenium等等爬虫需要的一些库,因为这个其实是基于爬虫的

from selenium import webdriver
from time import sleep
import requests
import time, re
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import traceback
import selenium.webdriver.support.ui as ui
import sys
rootPath = r"./pdf_download/"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;
  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
WPS文字转Word文档格式乱七八糟可能是由于以下几个原因导致的: 1. 版本兼容性问题:WPS和Word是两款不同的办公软件,它们使用的文件格式不完全相同。当你使用WPS文字转换为Word文档时,某些格式可能无法完全转换或被转换成不同的格式,导致文档格式混乱。 2. 复杂格式处理问题:如果原始文档中包含复杂的格式,如表格、图表、插图等,WPS文字转换为Word可能无法完全保留原始格式,并且可能会出现错位、缺失或乱码问题。 3. 字体兼容性问题:WPS和Word使用的字体库有所不同,如果原始文档中使用了某些特殊字体,在转换过程中可能会导致字体替换或无法显示的问题,进而影响整体文档的格式。 为避免格式混乱,你可以尝试以下方法: 1. 使用相同软件:如果可能的话,建议在同一款软件中完成文档的编辑和转换,例如,在WPS中编辑的文档最好在WPS中进行转换。 2. 简化格式:在进行转换前,尽量避免使用过多的复杂格式和特殊字体,尽量使用常见的字体和格式,以增加转换的成功率。 3. 逐步转换:如果你的文档比较复杂,可以将文档分成多个部分进行转换,以便更好地处理格式问题。 4. 检查转换结果:在转换后,务必仔细检查文档的格式,并进行必要的调整和修复,以确保文档的可读性和准确性。 需要注意的是,由于WPS和Word是两个不同的软件,无法保证在转换过程中完全保留原始文档的格式,因此可能会存在格式混乱的情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值