陈非尘-CSDN博客

原创 Python 批量修改PDF文件名

参加CyberC会议，会议的论文集文件名全是字母+数字，找自己想看的很难受，就用python改了下。环境说明：（1）python3.6（2）PyPDF2库（直接pip安装就行）（3）文件的结构说明，如下图：代码如下：import osfrom PyPDF2 import PdfFileWriter, PdfFileReaderfrom shutil import ...

2018-10-23 11:51:08 6719 2

原创基于python的二叉搜索树

二叉搜索树即左孩子<=根节点，右孩子>=根节点# -*- coding: utf-8 -*-# @Time : 2018/9/23 21:10# @Author : Lemon_shark# @Email : jiping_chen@163.comclass TreeNode: def __init__(self,value): se...

2018-09-23 22:34:43 385

原创基于python的二叉树遍历

例子中的二叉树是这样的，可以自己修改： # -*- coding: utf-8 -*-# @Time : 2018/9/23 13:47# @Author : Lemon_shark# @Email : jiping_chen@163.comclass TreeNode: def __init__(self,value): self.va...

2018-09-23 15:19:16 253

转载极大似然估计与贝叶斯估计的原理和区别

转载自：https://www.cnblogs.com/zjh225901/p/7495505.html赞一个！

2018-09-13 18:23:58 1697

原创几种常见的聚类算法

(1) k均值聚类思想：先确定聚类中心个数K,初始化聚类中心,计算每个样本到每个聚类中心的距离，将其归为最近的一类。#伪代码输入：样本集D={x1,x2....xm} 聚类中心（簇）个数k.迭代过程:1:从D中随机选择K个样本作为初始聚类中心{u1,u2....uk}2:repeat:3: 令Ci=空集（1<=i<=k）4： for ...

2018-09-06 10:22:13 13824

原创 GBDT与XGB的异同

1、xgboost怎么给特征打分？如何解决缺失值问题？1)在训练的过程中，通过gini指数选择分离点的特征，一个特征被选中的次数越多，评分越高。2)xgboost对缺失值有默认的处理方法，对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向，可以大大的提升算法的效率。2、什么是OOB？随机森中OOB如何计算的？（为什么不用交叉验证？）随机森林采用的bagging方法，其中...

2018-09-05 19:51:30 6860

原创随机森林（RF）与GBDT的异同

面试经常被问到，做个记录！相同点：好吧，其实相同点不太好说，如果非要说的话，那就是它们都是由多棵树组成，最终结果由这多棵树一起决定（其实中间的细节还是不一样）。不同点：（1）从集成学习来说，RF属于的bagging（稍微有点改变，增加了列抽样），而GBDT属于boosting；（2）从偏差-方差权衡来说，RF不断的降低模型的方差，GBDT不断的降低模型的偏差；（3）从训练样...

2018-09-05 17:06:21 1630

原创对数损失的两种形式

2018-09-05 12:10:30 2314 1

转载最大似然估计贝叶斯估计最大后验概率估计

笔试做到这种题，居然说不清楚，回顾一下https://www.2cto.com/net/201608/542594.html

2018-09-04 15:19:55 242

原创 CNN图像分类-经典网络摘要

一、LeNet-5-------1998年由LeCun在1998年提出，用于手写数字分类（1）提出了权重共享、特征图的概念（2）激活函数：双曲正切（3）网络权重初始化：均匀分布（4）训练：BP+SGD二、AlexNet------2012年（1）使用ReLU激活函数，减小梯度消失、防止过拟合，并加快了训练速度（2）数据增强：对图像进行裁剪、...

2018-08-30 15:27:06 4062

转载（转）BP神经网络反向传播推导

关于反向传播推导的博客千千万，能讲清楚的没几个，下文大部分转自博客：https://blog.csdn.net/sinat_34474705/article/details/54176584其中加了点注释（红色部分）1. BP网络模型及变量说明1.1 模型简图 1.2 变量说明：2. 误差反向传播相关推导2.1 正向传播（forward-propagatio...

2018-08-28 16:19:11 2061

原创 TF-IDF算法

TF-IDF（Term Frequency-Inverse Document Frequency）即词频-逆文档频率，一般用在文本描述中。主要思想是通过统计文章的关键词频率，来衡量和某个主题的相近程度或者计算文章之间的相似性。计算步骤（1）通过停用词将文章从字流分为词流，这儿推荐python的jieba库，下面给出一个使用示例：import jiebastring='小明昨天去了...

2018-08-27 16:37:09 1568

原创目标检测中mAP的意义

在目标检测任务中一般都是使用mAP（mean average precision）作为评价指标。维基百科中对mAP的解释是：翻译过来放在目标检测中是什么意思呢？分为三步解释：（1）计算P(q)大家都知道目标检测中每张图中可能有多个类别C，那么式中的P(q)其实就是某一张图中某一类的precision。 ,就是检测出来的结果中真正属于这一类的比例。（2）AveP(q)...

2018-08-16 22:11:46 2898

原创 Python实现FM (附代码与数据)

网上有很多实现FM的代码，基本一样且没有注释，看着很难受，就重新写了一下。借鉴的一篇博客地址为https://blog.csdn.net/john_xyz/article/details/78933253一、FM原理及用途FM一般用在CTR预估场景，出处为论文：《Factorization Machines》FM主要目标是：解决数据稀疏的情况下，特征怎样组合的问题根据pap...

2018-08-15 16:45:28 9006 4

转载 RCNN详解（转）

转载博客链接：http://blog.csdn.net/wopawn/article/details/52133338paper链接：链接: https://pan.baidu.com/s/1qYO4vY8 密码: 62fdpaper中相关名词解释：链接: https://pan.baidu.com/s/1nuAhidz 密码: pnsh再推荐一个博客：http://blog.csdn...

2018-08-11 21:43:56 2246

原创 CNN中的感受野

CNN中有一个概念叫局部感受野（local receptive field），那什么是感受野呢？一般的CNN结构都是卷积-池化这样重复下去，比如下表： layers size stride input 100*100*1 --- conv1 3*3 1 pool1 2*2 2 conv...

2018-08-10 15:35:34 4262

转载 SVM如何用于回归分析

转载自：http://blog.sina.com.cn/s/blog_62970c250102xfzj.html支持向量机（SVM）除了可以用于分类问题，也可以用于回归问题。1. SVM回归模型的损失函数度量我们知道SVM分类模型的目标函数是，同时要让训练集中的各个样本点尽量远离自己类别一侧的支持向量，即约束条件是。如果加上一个松弛变量，则目标函数变成，对应的约束条件变成。对于回归...

2018-08-10 10:40:26 33744 3

原创决策树算法

原来一直以为自己对决策树算法很了解了，今天有人问起的时候才发现原来一知半解。醒悟过来特作记录。由于公式实在是太难敲了，所以下文基本没有公式，见谅。一、简介相对于其他机器学习算法来说，决策树是一种很简单的算法，它遵循‘分而治之’的策略，迭代的产生分类or回归结果。它的内容主要有三点：（1）特征选择特征选择在于选取对数据具有分类能力的特征，其间细节其实很多，比如特征选择的方法以及的...

2018-08-07 21:27:21 283

转载梯度提升树GBDT原理小结

转载自刘建平的博客，大神写的内容都非常好啊https://www.cnblogs.com/pinard/p/6140514.html文章内容简介：（1）GBDT概述（2）GBDT的负梯度拟合（3）GBDT回归算法（4）GBDT分类算法 A. 二元GBDT分类算法 B.多元GBDT分类算法（5）GBDT常用损失函数（6） GBDT的...

2018-08-07 09:37:57 388 1

原创 Ubuntu无法连接到以太网

写在前面：（1）适用于ubuntu桌面版（VMware安装的虚拟机）（2）网上看了很多断网的情况，我遇到的只是其中一种，能帮到最好，帮不上忙勿怪问题：解决办法：在windows下输入服务，出现下图，点击将DHCP和NAT服务启动（原来可能是被360关了）这个时候虚拟机一般就能连上网了，如果还是不能，就像我一样，点Edit Connections --...

2018-08-01 20:32:07 7076 4

原创 Ubuntu下配置pysaprk并将其导入Python

一、所需的东西（1）java jdk（注意要是linux版的，并注意位数）（2）spark（3）anaconda（推荐，带有一些基本库）这个不是必须，linux里面python是自带的二、details（1）安装java下载网址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21...

2018-07-31 11:43:58 435

原创 win7下 pyspark+pycharm的结合使用

个人使用python的时候喜欢用pycharm,安装好spark后同样也想在其中使用，这需要一些配置，希望对有同样需求的人有所帮助ps:由于配置时没有马上做记录，中间有些过程忘了，可能会有其他问题，欢迎提出，看到尽快回复(1)打开pycharm,打开设置选项 (2)输入python console ，如下 (3)下面是一个测试代码，统计词频的from pysp...

2018-07-29 11:50:37 649

原创 WIN7下安装pyspark

一、需要的东西（1）java JDK 1.8 以上（2）spark （3）hadoop（不确定是否必须）+winutils.exe执行文件（4）python下面就一个个说明二、具体操作【下面所有软件安装时，请注意路径，路径不要有空格或者其他奇怪的符号，否则会出现奇形怪状的错误，切记切记】（1）安装jdk这一步比较简单，可以参考这个https://www.cn...

2018-07-29 10:53:56 1069

原创 python数据处理中的一些实际问题

前段时间参加阿里天池中的智慧交通预测挑战赛，费了不少功夫初赛排名45进入了复赛，后续没有时间继续复赛了，但还是想总结一下，算法就不详述了，具体谈谈数据处理的一些问题与解决方案。适合想要学习的新手参考，欢迎大家提出意见语言使用python+pycharm数据与部分代码百度网盘地址：http://pan.baidu.com/s/1jIGasnW 1. 读取数据比赛中数据格

2017-08-28 15:19:59 2346 1

原创 python之基础numpy库使用（三）

这儿为numpy基础知识的最后一弹，内容主要有线性代数运算与随机数的生成（一）线性代数运算线性代数运算使用方式：import numpy.linalg as alg(二)随机数生成在第二篇里面用到了随机数，这儿详细介绍一下（1）生成一个多维正态分布的随机数组In[49]: arr=np.random.normal(size=(4,4))In[50]: ar

2017-07-17 15:18:28 341

原创 python之基础numpy库使用（二）

接着第一篇的内容，下面介绍numpy中的一些通用函数（ufunc）的使用，它们可以实现快速的元素级操作以及利用数组进行数据处理一、通用函数（1）一元函数Sqrt(开根号)，exp(e指数)In[13]: arr=np.arange(4)In[14]: np.sqrt(arr)Out[14]: array([ 0. , 1. , 1.4142135

2017-07-17 14:54:22 396

原创 python之基础numpy库使用（一）

Numpy(numerical python的简称)是高性能科学计算和数据分析的基础包，python中安装许多其他库（如scipy,matplotlib等都需要numpy已经安装），这儿打算简单介绍一下它的基本使用，初定一个系列（希望能写完）写在前面:(1)导入numpy库的约定写法：import numpyas np(2)索引下标从0开始，且前闭后开（比如0-3，实际是0,1,2

2017-06-30 14:28:31 1046