- 博客(41)
- 收藏
- 关注
原创 图像去重 使用开源库 imagededup简单实用
imagededup使用起来非常方便,可以应对一些基本场景,但是由于所依赖的库包较多,所以我是使用anaconda创建虚拟环境防止影响生产或者测试环境conda create -n img_dup python=3.6conda activate img_dup安装pip install imagededup简单示例from imagededup.methods import PHashphasher = PHash()# 生成图像目录中所有图像的二值hash编码encoding
2021-02-26 09:19:23 2009 1
转载 tf.estimator.train_and_evaluate 详解
TensorFlow 版本:1.11.0 在 TensorFlow 1.4 版本中,Google 新引入了一个新 API:tf.estimator.train_and_evaluate。提出这个 API 的目的是:代替 tf.contrib.learn.Experiment。 1. tf.estimator.train_and_e...
2020-09-29 17:26:37 1149
原创 决策树的优缺点总结
优点:决策过程更接近人的思维, 因此模型更容易解释;能够更清楚地使用图形化描述模型;速度快;可以处理连续性和离散型数据;不需要任何领域知识和参数假设;适合高维数据。缺点:对于各特征样本量不均衡的数据, 信息增益更偏向于那些数值更多的特征;不支持在线学习;容易过拟合;一般来说, 决策学习方法的准确率不如其他模型。...
2020-07-18 23:21:25 4229 1
原创 什么是梯度消失和梯度爆炸及如何解决
原因梯度消失 (Vanishing Gradients)在梯度下降中, 随着算法反向的反馈, 梯度会越来越小,最终没有变化,此时并没有收敛到比好的解,这就是梯度消失的问题。梯度爆炸梯度爆炸原理跟梯度消失一样,反向传播时,导数大于1,导致梯度增加。解决方法激活函数更换激活函数ELU > leaky ReLU > ReLU > tanh > logistic添加BN层Batch Normalization的作用(1)允许较大的学习率(2)减弱对初始
2020-06-27 20:05:05 7942 1
原创 pandas 一些常用函数
1. pandas读取 没有标题栏的数据,添加标题栏的方法(csv文件)header = ["A", "B", "C", "D", "E", "F", "G", "H"]df = pd.read_csv('sy_yic_result_2020.csv',header=None,names=header)2. pandas两列相加或者拼接转换成一列df["I"] = df["B"] + df["G"] # 必须是同类型相加或拼接3. 存入mongodbdb = conn['pandas_db
2020-06-24 09:59:26 282
原创 pandas.DataFrame.dropna 使用删除缺省值NaN
pandas.DataFrame.dropnaDataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)删除缺失值参数:axis:{0或者‘index’, 1或者‘columns’}, 默认0确定是否删除包含缺失值的行或列。0或’index’:删除包含缺失值的行。1或“列”:删除包含缺失值的列。how: {‘any’,‘all’},默认为’any’当我们有至少一个NA或
2020-06-10 20:48:57 3467
转载 如何通俗地讲解 viterbi 算法?
这篇回答你绝对看得懂!如下图,假如你从S和E之间找一条最短的路径,除了遍历完所有路径,还有什么更好的方法?viterbi维特比算法解决的是篱笆型的图的最短路径问题,图的节点按列组织,每列的节点数量可以不一样,每一列的节点只能和相邻列的节点相连,不能跨列相连,节点之间有着不同的距离,距离的值就不在图上一一标注出来了,大家自行脑补答案:viterbi (维特比)算法。过程非常简单:为了找出S到E之间的...
2020-04-18 21:29:16 278
原创 python实现统计一周内mongo某个库所有集合每天的增量,并存入表格
临时统计mongo历史数据一周内的的每天的数据情况下面是简单代码实现import pymongoimport datetime, time import xlwtconn = pymongo.MongoClient('mongodb://root:123456@localhost:27017/admin')today = datetime.date.today()yesterda...
2020-04-02 19:04:49 675
原创 python logging模块日志管理
日志的重要性如果程序在生产中挂掉, 第一时间要看的不是代码而是日志,这样才能更准确地定位到错误的位置和原因,话说回来如果运行一个重要的程序,没有日志并且代码很多很复杂,运行报错,结果没有日志记录运行情况,这样就会导致我们要花时间是调试代码,重现错误! 这样的代价就是时间跟精力!因此日志记录是日常开发所必须的。python的logging模块python的logging模块很强大能够让我们根...
2019-12-18 21:00:29 297
原创 Cannot start service test1: b'endpoint with name test1 already exists in network ... docker 网络被占用
docker网络基本知识默认网络# 查看网络docker network lsbridge、none、host这 3 个网络包含在 Docker 实现中。运行一个容器时,可以使用 the –net标志指定您希望在哪个网络上运行该容器。您仍然可以使用这 3 个网络。bridge 网络表示所有 Docker 安装中都存在的 docker0 网络。除非使用 docker run –net=...
2019-11-15 17:20:00 2754
原创 Django 报错django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module如何解决
问题原因解决方案python3 中django连接mysql使用的包是pymysql, 所以第一步先安装 pymysqlpip install pymysql, 安装了并不代表就可以了, 还需要在项目的__init__.pymyblog/├── apps├── Dockerfile├── manage.py├── myblog│ ├── __init__.py # 此处添加...
2019-11-06 16:17:04 21243
原创 python 数据结构用python列表实现一个栈
栈的概念栈(stack),有些地方称为堆栈,是一种容器,可存入数据元素、访问元素、删除元素,它的特点在于只能允许在容器的一端(称为栈顶端指标,英语:top)进行加入数据(英语:push)和输出数据(英语:pop)的运算。没有了位置概念,保证任何时候可以访问、删除的元素都是此前最后存入的那个元素,确定了一种默认的访问顺序。由于栈数据结构只允许在一端进行操作,因而按照后进先出(LIFO, Last...
2019-11-05 10:36:28 331
原创 python 数据结构用python列表实现一个队列
队列的概念队列(queue)是只允许在一端进行插入操作,而在另一端进行删除操作的线性表。队列是一种先进先出的(First In First Out)的线性表,简称FIFO。允许插入的一端为队尾,允许删除的一端为队头。队列不允许在中间部位进行操作python 列表实现一个队列class Queue(object): """队列""" def __init__(self): ...
2019-11-01 11:06:42 561
原创 mongodb关于索引构建的维护
构建索引绝大部分时间,我们都想在从部署到生产环境之前定义索引。这样允许随着数据的插入增量式构建索引。但是,也有两种情况,我们可能会选择事后构建索引。第一种是当我们还没有发布到生产环境时导入大量数据。例如,必须把应用程序迁移到MongoDB并需要从数据仓库导入用户信息进来时,我们需要事先为用户数据创建索引,这样做可以从开始确保索引处于理想状态下的平衡度和压缩度。第二种情况(更加显而易见...
2019-11-01 09:45:17 260
原创 python 使用正则表达式获取文本中所有的日期时间
提取日期前的处理处理文本数据的日期格式统一化text = "2015年8月31日,衢州元立金属制品有限公司仓储公司(以下简称元立仓储公司)成品仓库发生一起物体打击事故,造成直接经济损失95万元。"text1 = "2015/12/28下达行政处罚决定书"text2 = "2015年8月发生一起物体打击事故"# 对文本处理一下 # 2015-8-31 2015-12-28text...
2019-10-27 10:53:58 7369 1
原创 python 用正则表达式获取文本中的文号
import rearea_dict = { "北京": ["海", "北京", "京"], "河南": ["豫"], "河北": ["翼"], "郑州": ["郑"], "商丘": ["商"], "天津": ["津"], "内蒙古": ["蒙"], "株州": ["株"],}a = "河南监管局"b = "郑州市应急管...
2019-10-24 22:57:35 509
转载 机器学习实战 : k-近邻算法(史诗级干货长文)
本文转自非常优秀的一位博主:Jack-Cui : http://blog.csdn.net/c40...
2019-10-15 11:06:37 497
原创 docker-compose 如何加入已存在的网络(network)
docker-compose.yamlversion: '2'networks: mongocluster_default: external: trueservices: rs_shard_server2: image: mongo:3.4 command: mongod -f /etc/mongod/mongod.conf --directoryperdb...
2019-10-12 18:21:34 12590 2
原创 python使用paramiko远程备份文件并实现两台服务器目录相同
安装 paramikopip install paramiko使用 paramiko通过paramiko可以实现ssh连接到远程服务器可以实现文件传输、远程控制、远程自动化运维等功能。ssh 连接ssh = paramiko.SSHClient() # 创建SSH对象# 允许连接不在know_hosts文件中的主机ssh.set_missing_host_key_policy(...
2019-08-29 14:00:18 511
原创 linux修改文件或者目录的访问权限的chmod和chown命令
通过chmod命令修改文件或者目录的访问权限使用chmod命令修改文件或目录的访问权限。要想成功修改访问权限,需要具有修改文件访问权限的权力,或者sudo为超级用户。chmod命令的语法格式如下:chmod 指定权限文件或目录指定权限可以用权限符号表示,也可以用表示权限的三位八进制数字表示。权限符号如下所示。u:表示文件属主。g:表示同组用户。o:表示其他用户。a:...
2019-08-28 16:40:37 477
原创 docker底层 命名空间
命名空间命名空间是 Linux 内核一个强大的特性。每个容器都有自己单独的命名空间,运行在其中的应用都像是在独立的操作系统中运行一样。命名空间保证了容器之间彼此互不影响。pid 命名空间不同用户的进程就是通过 pid 命名空间隔离开的,且不同命名空间中可以有相同pid。所有的 LXC 进程在 Docker 中的父进程为Docker进程,每个 LXC 进程具有不同的命名空间。同时由于允...
2019-08-08 15:58:58 192
原创 redis数据库误删如何恢复,使用flushdb误删了数据库所有的key
公司的redis,里面数据是一些相对重要的数据, 结果被一小伙误删,顿时心中万马奔腾!还好之前我使用两种方式做了数据的持久化。对于误删操作的恢复修改备份文件appendonly.aof, 具体操作如下:关闭redis服务# 其中一种关闭方式ps -aux | grep redissudo kill -9 <redis进程ID>打开aof文件找到最近的flushdb的命...
2019-07-16 15:24:53 3544 1
原创 MongoDB find查询语句详解
mongodb find查询与SQL查询对比子健筛选复杂查询查询条件操作符正则表达式子项查询排序分页与SQL查询对比作用SQLMongoDB所有记录SELECT * FROM usersdb.users.find()age=18的记录SELECT * FROM users WHERE age=33db.users.find({age:18})子键(字段...
2019-07-12 17:09:19 1439
原创 docker-compose搭建MongoDB分片集群详细步骤
服务器三台192.168.1.125192.168.1.126192.168.1.127创建目录在每台机器上操作此步骤cd /home/seeyiimkdir mongoClustercd mongoClustervi mongod.confstorage: dbPath: /data/db journal: enabled: truesystemLog: ...
2019-07-10 14:17:09 4276 4
原创 mongo常用的查询、聚合查询、更新文档
文档数据{ "_id" : ObjectId("5ce16d20282ad14398151c5d"), "title" : "青海银监局行政处罚信息公开2015年第3号", "ctime" : 1449417600, "branch" : "青海银监局", "fp_id" : "9cafbadf4401d0bb5caab40f21bd06492428934...
2019-07-05 19:03:09 372
原创 docker自定义网桥docker0及docker的开启,关闭,重启命令
问题公司将服务器迁移后,docker默认创建的doker0网桥与公司的外网网关产生冲突,导致外网无法连接服务器。解决方式修改默认的配置文件 /etc/docker/daemon.json对Docker进行配置。如果没有直接创建关闭 docker服务systemctl stop docker修改bip{ "bip": "192.168.0.1/24", # 修改此...
2019-06-25 18:11:39 4900 2
原创 python3爬虫如何使用pyExecJS解析js代码
网络爬虫难免会遇到JS加密,当遇到比较难搞得JS加密时, 很多小伙伴会选择使用selenium+Chrome,但是selenium有时候未必是万能的, 特别是浏览器在headless会出现一些不好解决的BUG,最关键的是效率!如果selenium 无法解决但是又必须获取这些数据, 破解JS势在必行 execjs是python很好的一个执行js的工具下面看看基本的用法环境pyExecJs...
2019-06-24 15:22:10 4485
原创 Ubuntu parted分区和挂载以及开机自动挂载
查看分区parted -lModel: VMware Virtual disk (scsi) Disk /dev/sda: 537GB Sector size (logical/physical): 512B/512B Partition Table: msdos Disk Flags: Number Start End Size Type File sy...
2019-06-18 16:03:25 4847 1
原创 python 判断字符串是否包含列表内的某个子字符串并替换成指定的值
两种方式:使用in判断list = ["监管分局", "银监会分局", "银保监会分局"]str = "郑州监管分局"flag = 0for i in list: if i in str: str = str.replace(i, '银监会分局') flag = 1print(str)if flag: print("执行接下来的任务")使用find方法...
2019-06-13 16:47:24 15645
原创 python单继承中super()用法
super().__init__相对于类名.__init__,在单继承上⽤法基本⽆差单继承时,使⽤super⽅法,则不能全部传递,只能传⽗类⽅法所需的参数,否则会报错class A(object): def __init__(self, name): print('A 的__init__开始被调⽤') self.name = nameclass...
2019-06-08 23:27:43 469
原创 如何使用docker部署django项目--项目文件挂载数据卷
如何使用Docker部署django项目?在公司我写了一个用于监控爬虫的django项目,为了部署和测试方便,我采用了使用docker来部署,我在使用docker部署稍大一点的项目时会先创建一个基础镜像。如: scrapy爬虫会先建立一个scrapy镜像, django先创建一个django镜像先创建Django的基础镜像创建一个文件夹 test1(随意) 里面放两个文件 Dockerf...
2019-06-07 10:16:20 943
原创 python获取文件名不加后缀
文件名 test.pyimport os file_name = os.path.basename(__file__)print(file_name)# 输出为 test.pyfile_name = file_name.split('.')[0]print(file_name)# 输出为 test
2019-06-04 17:21:28 48480 5
原创 Too many open files 导致 mongodb 宕机的问题及解决方式
再一次业务中一个单节点mongodb 挂掉, 最开始看日志并没有提示错误信息, 找了半天没有发现到底是什么原因。然后就直接重启,重启正常, 大概过了半天, 发现又挂掉了!!! 当时还是比较着急的,但是这次出现了日志 Too many open files。有日志就好办了, 这是Linux的文件句柄限制最大打开文件为1024., 很显然在实际生产中是不能满足要求的, 这就需要对它默认值的更改了。...
2019-05-31 10:09:53 1929
原创 python3 导入模块, 导入项目目录的模块如何不会出现报错 -- ImportError: No module named 'db'
python 在导入项目目录的文件时,会报错 ImportError, 这是由于系统没有找到模块路径(sys.path)。根据我的一个简单项目来说明一下导入的正确姿势, 目录结构如下── web_monitor├── conf│ ├── db_config.py│ ├── init.py├── db│ ├── db.cnf│ ├── init.py│ ├── ...
2019-05-30 15:20:56 4923 3
原创 Linux 根目录及相应子目录解析
Linux根目录解析各个目录的含义其他文件在根目录系统的子目录中各个目录的含义/bin 二进制可执行命令/dev 设备特殊文件/etc 系统管理和配置文件/etc/rc.d 启动的配置文件和脚本/home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示/lib 标准程序设计库,又叫动态链接共享库,作用类似windows里的.dll文件/sb...
2019-05-30 11:35:08 643
原创 docker快速搭建数据库服务及常见问题(三)-- redis容器篇
docker快速搭建redis服务及常见问题拉取redis镜`像创建redis容器, 启动服务拉取redis镜`像docker pull redis创建redis容器, 启动服务配置文件启动docker run -d --name myRedis -v /dvol/redis/redis.conf:/usr/local/etc/redis/redis.conf -v /dvol/red...
2019-05-30 09:43:55 228
原创 docker快速搭建数据库服务及常见问题(二)-- mongodb容器篇
docker快速搭建MongoDB服务及常见问题拉取MongoDB的docker镜像创建MongoDB容器, 启动容器拉取MongoDB的docker镜像docker pull mongo:3.4不标明tag , 默认为latest查看是否拉取成功 docker images 如果没有成功, 重试命令创建MongoDB容器, 启动容器启动MongoDB容器docker run ...
2019-05-29 10:40:27 624 5
原创 docker快速搭建数据库服务及常见问题(一)-- mysql容器篇
docker快速搭建MySQL服务及常见问题拉取MySQL的docker 镜像创建 MySQL容器 启动服务器MySQL数据库的 数据持久化我们学习数据库, 肯定需要搭建所学习的数据库服务, 往往物理搭建数据库服务比较麻烦, 导致我们学习的时候会浪费大量的时间用于搭建数据库, 所以发现docker是个好东西, 我们可以用 docker 快速搭建MySQL, Redis, MongoDB 数据库,...
2019-05-28 10:32:04 623
原创 mongodb配置文件详解,内存限制,用户验证 yaml格式
mongodb 单节点配置文件详解常用基本配置文件参数内存优化相关的配置添加用户认证mongodb 3.0及以上版本基本都是使用 yaml 语法格式的配置文件, 启动 mongo 实例如果不是指定配置文件或参数命令启动, 会按照默认的参数启动。常用基本配置文件参数storage: # mongod 进程存储数据目录,此配置仅对 mongod 进程有效 dbPath: /data/mo...
2019-05-27 17:18:30 5315
原创 docker 搭建 scrapy 爬虫节点,实现单个服务器的分布式
docker+scrapy+redis 爬虫节点创建scrapy的基础镜像根据scrapy基础镜像scrapy:v1.0 创建自己的爬虫项目镜像当然可以根据scrapy:v1.0 镜像直接运行容器实现多个容器抓取数据创建scrapy的基础镜像可以根据自己的实际需求创建一个scrapy镜像,上传到自己的云端或者本地。以下是我根据自己的场景创建的scrapy的基础镜像拉取 python:3....
2019-05-23 11:33:50 865
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人