- 博客(27)
- 收藏
- 关注
原创 Python 批量修改PDF文件名
参加CyberC会议,会议的论文集文件名全是字母+数字,找自己想看的很难受,就用python改了下。环境说明:(1)python3.6(2)PyPDF2库(直接pip安装就行)(3)文件的结构说明,如下图:代码如下:import osfrom PyPDF2 import PdfFileWriter, PdfFileReaderfrom shutil import ...
2018-10-23 11:51:08 6719 2
原创 基于python的二叉搜索树
二叉搜索树即左孩子<=根节点,右孩子>=根节点# -*- coding: utf-8 -*-# @Time : 2018/9/23 21:10# @Author : Lemon_shark# @Email : jiping_chen@163.comclass TreeNode: def __init__(self,value): se...
2018-09-23 22:34:43 385
原创 基于python的二叉树遍历
例子中的二叉树是这样的,可以自己修改: # -*- coding: utf-8 -*-# @Time : 2018/9/23 13:47# @Author : Lemon_shark# @Email : jiping_chen@163.comclass TreeNode: def __init__(self,value): self.va...
2018-09-23 15:19:16 253
转载 极大似然估计与贝叶斯估计的原理和区别
转载自:https://www.cnblogs.com/zjh225901/p/7495505.html赞一个!
2018-09-13 18:23:58 1697
原创 几种常见的聚类算法
(1) k均值聚类思想:先确定聚类中心个数K,初始化聚类中心,计算每个样本到每个聚类中心的距离,将其归为最近的一类。#伪代码输入:样本集D={x1,x2....xm} 聚类中心(簇)个数k.迭代过程:1:从D中随机选择K个样本作为初始聚类中心{u1,u2....uk}2:repeat:3: 令Ci=空集(1<=i<=k)4: for ...
2018-09-06 10:22:13 13824
原创 GBDT与XGB的异同
1、xgboost怎么给特征打分?如何解决缺失值问题?1)在训练的过程中,通过gini指数选择分离点的特征,一个特征被选中的次数越多,评分越高。2)xgboost对缺失值有默认的处理方法,对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向,可以大大的提升算法的效率。2、什么是OOB?随机森中OOB如何计算的?(为什么不用交叉验证?)随机森林采用的bagging方法,其中...
2018-09-05 19:51:30 6860
原创 随机森林(RF)与GBDT的异同
面试经常被问到,做个记录!相同点:好吧,其实相同点不太好说,如果非要说的话,那就是它们都是由多棵树组成,最终结果由这多棵树一起决定(其实中间的细节还是不一样)。不同点:(1)从集成学习来说,RF属于的bagging(稍微有点改变,增加了列抽样),而GBDT属于boosting;(2)从偏差-方差权衡来说,RF不断的降低模型的方差,GBDT不断的降低模型的偏差;(3)从训练样...
2018-09-05 17:06:21 1630
转载 最大似然估计 贝叶斯估计 最大后验概率估计
笔试做到这种题,居然说不清楚,回顾一下https://www.2cto.com/net/201608/542594.html
2018-09-04 15:19:55 242
原创 CNN图像分类-经典网络摘要
一、LeNet-5-------1998年 由LeCun在1998年提出,用于手写数字分类(1)提出了权重共享、特征图的概念(2)激活函数:双曲正切 (3)网络权重初始化:均匀分布(4)训练:BP+SGD二、AlexNet------2012年(1)使用ReLU激活函数,减小梯度消失、防止过拟合,并加快了训练速度(2)数据增强:对图像进行裁剪、...
2018-08-30 15:27:06 4062
转载 (转)BP神经网络反向传播推导
关于反向传播推导的博客千千万,能讲清楚的没几个,下文大部分转自博客:https://blog.csdn.net/sinat_34474705/article/details/54176584其中加了点注释(红色部分)1. BP网络模型及变量说明1.1 模型简图 1.2 变量说明:2. 误差反向传播相关推导2.1 正向传播(forward-propagatio...
2018-08-28 16:19:11 2061
原创 TF-IDF算法
TF-IDF(Term Frequency-Inverse Document Frequency)即词频-逆文档频率,一般用在文本描述中。主要思想是通过统计文章的关键词频率,来衡量和某个主题的相近程度或者计算文章之间的相似性。计算步骤(1)通过停用词将文章从字流分为词流,这儿推荐python的jieba库,下面给出一个使用示例:import jiebastring='小明昨天去了...
2018-08-27 16:37:09 1568
原创 目标检测中mAP的意义
在目标检测任务中一般都是使用mAP(mean average precision)作为评价指标。维基百科中对mAP的解释是:翻译过来放在目标检测中是什么意思呢?分为三步解释:(1)计算P(q)大家都知道目标检测中每张图中可能有多个类别C,那么式中的P(q)其实就是某一张图中某一类的precision。 ,就是检测出来的结果中真正属于这一类的比例。(2)AveP(q)...
2018-08-16 22:11:46 2898
原创 Python实现FM (附代码与数据)
网上有很多实现FM的代码,基本一样且没有注释,看着很难受,就重新写了一下。借鉴的一篇博客地址为https://blog.csdn.net/john_xyz/article/details/78933253一、FM原理及用途FM一般用在CTR预估场景,出处为论文:《Factorization Machines》FM主要目标是:解决数据稀疏的情况下,特征怎样组合的问题 根据pap...
2018-08-15 16:45:28 9006 4
转载 RCNN详解(转)
转载博客链接:http://blog.csdn.net/wopawn/article/details/52133338paper链接:链接: https://pan.baidu.com/s/1qYO4vY8 密码: 62fdpaper中相关名词解释:链接: https://pan.baidu.com/s/1nuAhidz 密码: pnsh再推荐一个博客:http://blog.csdn...
2018-08-11 21:43:56 2246
原创 CNN中的感受野
CNN中有一个概念叫局部感受野(local receptive field),那什么是感受野呢?一般的CNN结构都是卷积-池化这样重复下去,比如下表: layers size stride input 100*100*1 --- conv1 3*3 1 pool1 2*2 2 conv...
2018-08-10 15:35:34 4262
转载 SVM如何用于回归分析
转载自:http://blog.sina.com.cn/s/blog_62970c250102xfzj.html支持向量机(SVM)除了可以用于分类问题,也可以用于回归问题。1. SVM回归模型的损失函数度量我们知道SVM分类模型的目标函数是,同时要让训练集中的各个样本点尽量远离自己类别一侧的支持向量,即约束条件是。如果加上一个松弛变量,则目标函数变成,对应的约束条件变成。对于回归...
2018-08-10 10:40:26 33744 3
原创 决策树算法
原来一直以为自己对决策树算法很了解了,今天有人问起的时候才发现原来一知半解。醒悟过来特作记录。由于公式实在是太难敲了,所以下文基本没有公式,见谅。一、简介相对于其他机器学习算法来说,决策树是一种很简单的算法,它遵循‘分而治之’的策略,迭代的产生分类or回归结果。它的内容主要有三点:(1)特征选择特征选择在于选取对数据具有分类能力的特征,其间细节其实很多,比如特征选择的方法以及的...
2018-08-07 21:27:21 283
转载 梯度提升树GBDT原理小结
转载自刘建平的博客,大神写的内容都非常好啊https://www.cnblogs.com/pinard/p/6140514.html文章内容简介:(1)GBDT概述(2)GBDT的负梯度拟合(3)GBDT回归算法(4)GBDT分类算法 A. 二元GBDT分类算法 B.多元GBDT分类算法(5)GBDT常用损失函数(6) GBDT的...
2018-08-07 09:37:57 388 1
原创 Ubuntu无法连接到以太网
写在前面:(1)适用于ubuntu桌面版(VMware安装的虚拟机)(2)网上看了很多断网的情况,我遇到的只是其中一种,能帮到最好,帮不上忙勿怪问题:解决办法: 在windows下输入服务,出现下图,点击将DHCP和NAT服务启动(原来可能是被360关了) 这个时候虚拟机一般就能连上网了,如果还是不能,就像我一样,点Edit Connections --...
2018-08-01 20:32:07 7076 4
原创 Ubuntu下配置pysaprk并将其导入Python
一、所需的东西(1)java jdk(注意要是linux版的,并注意位数)(2)spark(3)anaconda(推荐,带有一些基本库)这个不是必须,linux里面python是自带的二、details(1)安装java下载网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21...
2018-07-31 11:43:58 435
原创 win7下 pyspark+pycharm的结合使用
个人使用python的时候喜欢用pycharm,安装好spark后同样也想在其中使用,这需要一些配置,希望对有同样需求的人有所帮助ps:由于配置时没有马上做记录,中间有些过程忘了,可能会有其他问题,欢迎提出,看到尽快回复(1)打开pycharm,打开设置选项 (2)输入python console ,如下 (3)下面是一个测试代码,统计词频的from pysp...
2018-07-29 11:50:37 649
原创 WIN7下安装pyspark
一、需要的东西(1)java JDK 1.8 以上(2)spark (3)hadoop(不确定是否必须)+winutils.exe执行文件(4)python下面就一个个说明二、具体操作【下面所有软件安装时,请注意路径,路径不要有空格或者其他奇怪的符号,否则会出现奇形怪状的错误,切记切记】(1)安装jdk这一步比较简单,可以参考这个https://www.cn...
2018-07-29 10:53:56 1069
原创 python数据处理中的一些实际问题
前段时间参加阿里天池中的智慧交通预测挑战赛,费了不少功夫初赛排名45进入了复赛,后续没有时间继续复赛了,但还是想总结一下,算法就不详述了,具体谈谈数据处理的一些问题与解决方案。适合想要学习的新手参考,欢迎大家提出意见语言使用python+pycharm数据与部分代码百度网盘地址:http://pan.baidu.com/s/1jIGasnW 1. 读取数据比赛中数据格
2017-08-28 15:19:59 2346 1
原创 python之基础numpy库使用(三)
这儿为numpy基础知识的最后一弹,内容主要有线性代数运算与随机数的生成(一)线性代数运算线性代数运算使用方式:import numpy.linalg as alg(二)随机数生成在第二篇里面用到了随机数,这儿详细介绍一下(1)生成一个多维正态分布的随机数组In[49]: arr=np.random.normal(size=(4,4))In[50]: ar
2017-07-17 15:18:28 341
原创 python之基础numpy库使用(二)
接着第一篇的内容,下面介绍numpy中的一些通用函数(ufunc)的使用,它们可以实现快速的元素级操作以及利用数组进行数据处理一、通用函数(1)一元函数Sqrt(开根号),exp(e指数)In[13]: arr=np.arange(4)In[14]: np.sqrt(arr)Out[14]: array([ 0. , 1. , 1.4142135
2017-07-17 14:54:22 396
原创 python之基础numpy库使用(一)
Numpy(numerical python的简称)是高性能科学计算和数据分析的基础包,python中安装许多其他库(如scipy,matplotlib等都需要numpy已经安装),这儿打算简单介绍一下它的基本使用,初定一个系列(希望能写完)写在前面:(1)导入numpy库的约定写法:import numpyas np(2)索引下标从0开始,且前闭后开(比如0-3,实际是0,1,2
2017-06-30 14:28:31 1046
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人