自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周小董

万物互联,环环相扣。

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 [778]Python实现PDF和图片互转

这种方法底层也是调用了Magick库,如果没有安装的话,在import Color时则会抛出异常,异常信息中会给出下载地址,记得选择与Python版本相同的第三方库进行下载安装。大小的,也就是说比我们自己写代码得出的图片要清晰很多,倘若我们将得到的图片再转回成pdf,得到的pdf文件明显模糊不清,干扰阅读。参考:https://zhuanlan.zhihu.com/p/102742847。Wind官网:http://docs.wand-py.org/en/0.5.6/注意,fitz要先在下面的网址下载。

2020-03-27 21:47:08 185 1

原创 [784]python解析PDF表格

通过看别人写的博客,发现python里面有关PDF解析的通常有以下四种:pdfminer,擅长仅仅是文字的解析,本小白试过了,是把表格解析成普通的文本,还经常会伴随一些莫名奇妙的不认识的符号。这个方案pass掉pdf2html,看例是把pdf解析成html,但是html的标签并没有规律,解析一个还行,但是本小白是许多的pdf文档下小标题的表格,这个方案直接pass掉tabula,...

2020-03-27 18:22:58 1175

原创 [783]python使用PythonMagick将jpg图片转换成png图片

PythonMagickPythonMagick库无法用pip或者easy_install来安装,因此,需要手动安装,地址如下:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pythonmagick选择合适版本下载后,进入文件所在位置,直接pip install + 文件名即可完成安装。下面这段代码可以讲jpg图片转换成png图标格式。impor...

2020-03-27 18:22:14 989

原创 [782]AttributeError: module 'tabula' has no attribute 'read_pdf'

from tabula import read_pdf报错:ImportError: cannot import name ‘read_pdf’解决:pip uninstall tabulapip3 install tabula-pyimport tabula# Read pdf into DataFramedf = tabula.read_pdf("./P26.pdf",pag...

2020-03-27 18:21:31 6660 2

原创 [781]python去除字符串中开头|结尾|所有字母、数字

python3:from string import digits s = 'abc123def456ghi789zero0'remove_digits = str.maketrans('', '', digits)res = s.translate(remove_digits)# 'abcdefghizero'或者:filter(lambda x: x.isalpha(), "...

2020-03-27 18:20:50 3545

原创 [779]python如何判定字符串的前几个字符是不是数字

正则匹配法比较严谨一些,你说的数字有没有条件限制?下面是一些常用的判断各种数字的正则表达式:验证数字:^[0-9]*$验证n位的数字:^\d{n}$验证至少n位数字:^\d{n,}$验证m-n位的数字:^\d{m,n}$验证零和非零开头的数字:^(0|[1-9][0-9]*)$验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$验证有1-3位小数的正实数:^[0-9]+...

2020-03-27 18:19:12 2572

原创 [777]Python调用百度文字识别API识别并提取图片中文字

利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字。创建一个应用,并进入管理应用,记下 AppID, API Key, Secrect Key,调用 API需用到。参考:https://blog.csdn.net/XnCSD/article/details/80786793。以下是代码实现,需将所有识别的图片放进名为 picture 的文件夹。安装 python 的百度ai接口的的库。应用(需要有百度账号)。py2,py3均适用。

2020-03-27 18:17:43 1110 1

转载 [776]github fork 别人的项目源作者更新后如何同步更新

1. 打开fork 过来的项目如下所示:2. 点击new pull request3. 在进入的界面, 后进行将左边的设置为你自己的仓库, fork 过来的源在右边, 如下图:4. 当选择完后会变成下图:5. 接下来, 将其展示出可以调整状态: 右边改为源fork地址6. 就会出现变更数据:7.  点击create pull request8. 进行...

2020-03-27 18:15:55 559

原创 [775]小象学院--爬虫知识点总结

第一课查找安装包pip search lxml设置 pip 源,配置 pip.conf ,自动设置源# mkdir ~/.pip/# vim ~/.pip/pip.conf[global]index-url=https://pypi.tuna.tsinghua.edu.cn/simple也可以每次安装的时候制定 source# pip install –i https://p...

2020-03-19 19:06:12 908

原创 [774]python爬虫:正文提取第三方库goose

Goose 是一个 文章内容提取器 ,可以从任意资讯文章类的网页中提取 文章主体 ,并提取 标题、标签、摘要、图片、视频 等信息,且 支持中文 网页。它最初是由 http://Gravity.com 用 Java 编写的。python-goose 是用 Python 重写的版本。有了这个库,你从网上爬下来的网页可以直接获取正文内容,无需再用 bs4 或正则表达式一个个去处理文本。正文提取库go...

2020-03-19 19:04:24 1535

原创 [773]smtplib.SMTPServerDisconnected: Connection unexpectedly closed

运行结果:D:\Python\python3.exe "D:/PyCharm files/face/raspberry/smtp.py"Traceback (most recent call last):  File "D:/PyCharm files/face/raspberry/smtp.py", line 43, in <module>   ...

2020-03-18 21:13:30 2640

原创 [772]python使用mysqldb模块通过ssh隧道连接mysql(密码|密钥)

主要出于安全考虑,数据库服务器只允许堡垒机通过ssh访问,这对日常的使用带来了麻烦。问题是这样的,MySQL数据库放在了服务器A上,只允许服务器B来访问,而我在机器C上,可以通过ssh连接服务器B。为了解决在机器C上连接mysql这个问题pip install sshtunnelpip install mysqlclientimport MySQLdbfrom sshtunnel im...

2020-03-11 22:31:52 979

转载 [771]如何正确移除 Pyppeteer 中的window.navigator.webdriver

由于Selenium启动的Chrome中,有几十个特征可以被识别,所以在爬虫界已经没有以前那么受欢迎了。模拟浏览器的新秀Puppeteer异军突起,逐渐受到了爬虫界的关注。Puppeteer需要使用JavaScript来控制,如果你是用Python,那么就需要使用Pyppeteer.如果你使用模拟浏览器爬淘宝,你会发现,无论怎么修改参数,Selenium总是可以立刻被识别。但是如果你使用了本文的...

2020-03-11 22:31:02 2252

转载 [770]css-3d旋转相册

源码链接:https://gitee.com/cungudafa/css-3d下载解压,只需替换css-3d项目中img下的照片就可以了,注意不要修改照片的名字双击index.html就可以显示 3d相册 的网页效果啦!源码:hovertree.css/*背景页面颜色设置*/html{ background:linear-gradient(#FF6666 0%,#336699 20...

2020-03-11 22:30:15 611

转载 [769]python汉字首字母拼音排序

1、安装pypinyin,目的是将中文转换成拼音 pip install pypinyin2、利用sort()函数进行排序from pypinyin import lazy_pinyinchinese_list=[u'中国人', u'啊', u'你好', u'台湾人'] #只支持unicode stringchinese_list= sorted(chinese_list, key=l...

2020-03-07 20:00:43 1343

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错 使用这个修改完成的Hbase类替换掉原来的Hbase类问题全部解决 主要是因为python版本兼容性带来的问题

2018-09-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除