王本宝-CSDN博客

原创模型与算法：提升算法（Boosting)

Ada Boosting (自适应提升，adaptive boosting)训练多个弱分类器，将弱分类器组合起来，形成强分类器。一、关于计算学习理论（2010）中的霍夫丁不等式x:总样本中正样本的比例y:抽样的样本中正样本的比例这个公式说明：当总样本足够大，抽样的结果和总样本的结果之间的差，超过误差范围的概率就非常小二、概率近似正确（probably approximately correct,PCA）解释了是否可以将从多个角度完成训练的“弱模型”，组合形成一个“强模型”。弱可学习模型：

2020-11-29 21:58:13 957

原创目标检测之端到端：Fast RCNN

2015年，Ross Girshick提出Fast RCNN,在SPPNet之后提出。1、Fast R-CNN框架输入：一张包含多个ROI的图片网络：多层卷积（用了VGG16）特征提取，每个ROI被池化成一个固定大小的Feature map，最后被全连接层展开成一个特征向量。输出：特征向量被分享做两次操作（并行）1：经过output为21维的全连接层，用来做softmax分类，对ROI区域做物体识别2：经过output为84维的全连接层，用来做box regression候选框回归，修正定位，使

2020-11-17 21:34:55 1691 3

原创目标检测发展之SPP-Net

(2015) SPP-NetSpatial Pramid Pooling 空间金字塔池化SPP-Net对2014年提出的RCNN做出了改进。1、算法流程通过选择搜索（selective search），对待检测图片搜索出2000个候选框。（同RCNN）改进：改变RCNN对2000多个框出来的图分别都输入CNN中的做法。将整张图直接输入CNN，一次性完成特征提取，得到Feature Map。然后在Feature Map中找到各个候选框区域，对每个区域用空间金字塔池化提取出固定长度的特征向量。（

2020-11-16 21:40:59 187

原创目标检测开山之作：R-CNN

R-CNN全称：Region with CNN feature延续传统目标检测的思想。区域选择→特征提取→分类器分类具体流程：1、生成候选框，筛选采用selective search算法（选择搜索），进行图像分割。用非极大值抑制（NMS）确定候选框 1、根据置信度得分进行框的排序 2、将置信度最高的候选框放入输出列表 3、用IOU（交并比）判断候选框之间的重叠大小，设置一个阈值（经验值取0.3）超过阈值的去掉。（合并包含同一物体的可能性高的区域）。大约提取2000个候选

2020-11-14 21:40:25 304

原创组合问题——队列，回溯法等

力扣刷题：电话号码的字母组合思路1:队列实现：1、将第一个数对应的字符拆分，分别加入队列2、第一个字母出队列，与第二个数对应的三个字母分别组合，入队列3、循环def lettercombination(digits): # '23' if not digits: return [] dic={'2':'abc', '3':'def', '4':'ghi', '5':'jkl', '6':'mno', '7':'pqrs', '8':'tuv',

2020-11-11 20:46:59 144

原创算法面经之优化

1、优化算法，Adam的理解2、迁移学习：1）基于样本的迁移：通过权重，重用源域和目标域的样本进行迁移。根据一定的权重生成规则，对数据样本进行重用。迁移时，为了最大限度地和目标域相似，可以认为的提高源域中两个域的交叉类别的权重。2）基于特征的迁移：通过特征变换的方式互相迁移，减少源域和目标域之间的差距。或者是将源域和目标域的数据特征变换到统一的特征空间中，然后利用传统的机器学习方法进行分类识别。3）基于模型的迁移利用源域和目标域的参数共享模型3、激活函数的作用解决线性不可分问题，增加网

2020-11-10 08:59:12 665

原创 pytorch 安装

安装torch，做个记录借鉴：http://www.atyun.com/3565.html多次失败可尝试下面的语句：1、进官网https://pytorch.org/2、install选择合适的，pip windows no cuda之类的3、得到语句，cmd运行pip install torch1.6.0+cpu torchvision0.7.0+cpu -f https://download.pytorch.org/whl/torch_stable.html...

2020-11-10 08:47:32 78

原创 11.4-11.5算法面试总结

薄弱点在机器学习。1、交叉熵中的熵是指什么？‘熵’就是混乱度，是衡量事物混乱程度的一个指标。信息熵公式：信息熵：对信息的度量。一个具体的事件发生了所带来的信息。也指信息的混乱程度。信息增益：在划分数据集前后信息发生的变化。信息的大小与随机事件的概率有关，越小概率事情的发生，产生的信息量越大；越大概率事情的发生，产生的信息量越小。因此，一个具体时间下信息量是随着发生的概率而递减，且不能为负。公式推导：如果有两个不相关的时间x和y，两个事件共同发生同时获得的信息量应该为各自发生时获得的信息之

2020-11-05 22:38:39 123

原创数据结构—哈夫曼树总结

一、哈夫曼树也叫最优二叉树，是指一组带有确定权值的叶子结点所构造的具有带权路径长度最短的二叉树。1、用哈夫曼树算法构造哈夫曼树：1、树的权重为所有叶子的概率之和，把每个字符的概率记在树的根中，用来指出树的权重。2、重复操作，直到剩下一颗单独的树：找两颗权重最小的树，作为新树的左右子树，把权重之和作为新的权重记录在树的根中。2、哈夫曼编码例题出现概率：A:0.35B:0.1C:0.2D:0.2E:0.15求各字符哈夫曼编码，和压缩率总结：哈夫曼树是最优二叉树，使得从根出发到包含

2020-10-27 11:01:51 2561

原创数据库知识点10.24

1、排序order by 默认使用升序asc为升序，desc为降序例：按salary的将序，列出整个instructor关系，如果有几位教师的工资相同，就将他们按姓名升序。select *from instructororder by salary desc，name asc2、查询显示雇员的姓名和姓名中是否含有字母A的信息，满足如下条件如果字符A在姓名的首位，则显示’字符A在首位’如果字符A在姓名的末位，则显示’字符A在末位’如果字符A在姓名中不存在，则显示’没有字符A’其他情况

2020-10-25 16:02:52 363

原创错题知识点回顾1

大数据1、数据预处理的主要步骤分为：数据清理、数据集成、数据规约、数据变换数据清理：通过填补缺失值、光滑噪声数据，平滑或删除离群点，并解决数据的不一致性来“清理“数据。否则输出的结果是不可靠的。数据集成：数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储，如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。数据规约：数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生

2020-10-24 15:30:20 1500

原创机器学习面试总结

2020.10.23一、除了主成分分析，还使用哪些降维方法。高维情况下出现的数据样本稀疏、距离计算困难的问题，也叫”维数灾难“，缓解这种情况的一个重要途径是降维，”维数约简“，还有一种途径就是特征选择。线性降维包括：主成分分析（PCA），奇异值分解（SVD），因子分析以下都是非线性降维现实任务中，直接使用线性降维方法对三维空间中的样本点进行降维，将丢失原本的低维结构。KPCA（核主成分分析）,MDS（多维缩放）,lsomap(等度量/距离映射),LLE（局部线性嵌入）1、多维缩放（Multip

2020-10-24 10:29:16 531 1

原创对JDA程序的一些帮助理解

对JDA程序的一些帮助理解1、线性计算与矩阵分解scipy.linalg w, v = scipy.linalg.eig(a, b) w为特征值，v为特征向量其中的linalg.eig(a,b)作用为计算矩阵特征向量导入模块import numpy as np #导入numpy库from scipy import linalg as lg #导入scipy库的linalg模块a...

2020-05-27 18:16:33 1007

weixin_43696243的博客