自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 排序

https://blog.csdn.net/haiyu94/article/details/79847015

2018-11-10 18:16:05 163

原创 图像处理

要学习高斯模糊我们首先要知道一些基本概念:线性滤波与卷积的基本概念      线性滤波可以说是图像处理最基本的方法,它可以允许我们对图像进行处理,产生很多不同的效果。做法很简单。首先,我们有一个二维的滤波器矩阵(有个高大上的名字叫卷积核)和一个要处理的二维图像。然后,对于图像的每一个像素点,...

2018-11-09 14:00:43 244

原创 十大排序

排序1、冒泡排序基本思想:比较相邻的元素大小,将小的前移,大的后移,就像水中的气泡一样,最小的元素经过几次移动,会最终浮到水面上。原地排序,不需要返回值。import randomimport timedef bubbleSort(list1): for i in range(le...

2018-11-06 21:16:55 330

原创 十大排序

0、排序算法说明0.1 排序的定义对一序列对象根据某个关键字进行排序。0.2 术语说明稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面;内排序:所有排序操作都在内存中完成;外排序:由于数据太大,因此把数据放在磁...

2018-11-06 21:14:02 167

原创 GBDT

在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBR...

2018-11-06 21:11:03 267

原创 otsu阈值分割

一、OTSU法(大津阈值分割法)介绍  OTSU算法是由日本学者OTSU于1979年提出的一种对图像进行二值化的高效算法,是一种自适应的阈值确定的方法,又称大津阈值分割法,是最小二乘法意义下的最优分割。 二、单阈值OTSU法  设图像包含L个灰度级,灰度值为i的像素点个数为Ni,像素总点数为: N=N0+N1+⋯+NL−1N=N0+N1+⋯+NL−1下面给出python源代码。 #...

2018-11-06 21:03:18 22346

原创 提升算法

一、提升算法概论Boosting(提升)是一族可将弱学习器提升为强学习器的算法。提升算法基于这样一种思想:对于一个复杂的任务,将多个专家的判断总和得出的结果要比任何一个专家单独的判断好。这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器表现对训练样本分布进行调整,是的先前基学习器做错的样本在后续收到更多关注(赋予做错的样本更大的权值),然后基于调整后的样本分布来训练下一个...

2018-11-06 20:54:23 1274

原创 集成学习

译者注:这篇文章是对 PythonWeekly 推荐的一篇讲集成模型的文章的翻译,原文为 Ensemble Learning to Improve Machine Learning Results,由 Vadim Smolyakov 于 2017 年 8 月 22 日发表在 Medium 上,Vadim Smolyakov 是一名 MIT 的研究生。水平有限,如有错误,欢迎评论区或者邮件或者私...

2018-11-06 20:53:12 206

原创 滤波

滤波算法主要包括均值滤波,高斯滤波,中值滤波和双边滤波。 每种算法都有自己的特点,建议从原理上了解每种算法的优缺点。上图给出简洁版的总结。 以下是代码:import numpy as npimport cv2import matplotlib.pyplot as plt######## 四个不同的滤波器 #########img = cv2.imread(‘cat....

2018-11-06 16:54:03 209

原创 Lenet/Alexnet/VGG/GoogleNet

-深度学习网络学习总结卷积神经网络,是深度学习方向的主流方向,目前具有代表的网络如下:lenet alexnet vgg googlenet, 大部分卷积神经网络都由conv层、pool层、rule层、LRN层、fc层、softmax、dropout等层组成。本文对以上网络依次介绍。:Lenet,1986年Alexnet,2012年GoogleNet,2014年VGG,2014年De...

2018-10-30 20:29:25 283

原创 线性回归

线性函数、线性回归逻辑分类LC线性模型:把每个特征对分类结果的“作用”加起来——这就是线性模型。逻辑分类(Logistic Classification)是一种线性模型,可以表示为y=f(x∗w+b)y=f(x∗w+b),其中w是训练得到的权重参数(Weight);x是样本特征数据;b是偏置(Bias),f成为激活函数。就是给定一批样本数据集,和样本对象所属的分类,进行建立模型。使用模型对...

2018-10-16 15:55:41 1158 1

原创 时间序列

1、时间序列时间序列是时间间隔不变的情况下收集的不同时间点数据集合,这些集合被分析用来了解长期发展趋势及为了预测未来。时间序列与常见的回归问题的不同点在于:1、时间序列是跟时间有关的;而线性回归模型的假设:观察结果是独立的在这种情况下是不成立的。2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式;常用的时间序列模型有AR模型(Autoregressive model:自回归模...

2018-09-27 21:21:10 2720

原创 git

什么是gitgit是一个开源的分布式版本控制系统工具,用于高效的管理大小项目代码git 特点git是分布是的版本管理系统git更多使用在*nix下git更加安全,因为是分布式管理git可以衍生更多的工作模式可以脱网操作,数据同步更快集中式 : 代码集中管理,有一个中央服务器,每次更新都从中 央服务器下载最新内容分布式 : 每个节点都保存完整的代码,没有中...

2018-09-25 19:27:35 219

原创 最小二乘法

最小二乘法则是一种统计学习优化技术,它的目标是最小化误差平方之和来作为目标,从而找到最优模型,这个模型可以拟合(fit)观察数据。 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以用著名的最小二乘法来解决。最小二乘法就是曲线拟合的一种解决方法。 最小二乘法的问题分为两类:线性最小二乘法非线性最小二乘法如果是线性的则有闭式解(closed-form solution),...

2018-09-24 23:54:14 583

原创 拉格朗日乘子法、KKT条件、拉格朗日对偶性

拉格朗日乘子法(Lagrange Multiplier)拉格朗日乘子法是一种寻找有等式约束条件的函数的最优值(最大或者最小)的最优化方法.在求取函数最优值的过程中,约束条件通常会给求取最优值带来困难,而拉格朗日乘子法就是解决这类问题的一种强有力的工具.单约束问题考虑以下的二维单约束优化问题:maximizemaximize f(x,y)f(x,y)subjectsubject tot...

2018-09-24 23:38:57 547

原创 Embedding

One-hot Embedding假设一共有个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.应用中一般将物体嵌入到一个低维空间 ,只需要再compose上一个从到的线性映射就好了。每一个 的矩阵都定义了到的一个线性映射: 。当 是一个标准基向量的时候,对应矩阵中...

2018-09-22 19:54:01 1020

原创 TF-IDF

TF-IDF概述TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都...

2018-09-21 20:36:08 172

原创 智能文本处理

训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型可以通过分别执行model=gensim.models.Word2Vec(),model.build_vocab(sentences),model.train(sente...

2018-09-21 01:09:10 641

原创 CapsuleNet

最近hinton很早就提出了一个结构名为capsule,旨在解决cnn的固有缺点,本文是第一篇实现hinton capsule结构的论文Dynamic Routing Between Capsules,本文很大程度上翻译自“Understanding Dynamic Routing between Capsules (Capsule Networks)” 代码来自: XifengGuo...

2018-09-21 00:33:52 288

原创 Bi-directional LSTM RNN(双向长短时记忆循环神经网络)

转自:http://blog.csdn.net/jojozhangju/article/details/519822541. Recurrent Neural Network (RNN)尽管从多层感知器(MLP)到循环神经网络(RNN)的扩展看起来微不足道,但是这对于序列的学习具有深远的意义。循环神经网络(RNN)的使用是用来处理序列数据的。在传统的神经网络中模型中,层与层之间是全连接的,每层...

2018-09-21 00:28:19 2058

原创 RCNN(Regions with CNN features)

RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,由年轻有为的RBG大神提出,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。        算法可以分为四步:        1)候选...

2018-09-20 13:51:32 603

原创 豆瓣爬取

这里例子考虑了去重及广度优先遍历算法的使用:说明,这里主要使用BS4的使用,考虑到很多童鞋对正则使用的不熟,其实个人比较喜欢粗暴的使用正则:) 另说明,这是一个单进程单线程的版本;这里的basicSpider之前已经封装好了。from bs4 import BeautifulSoupimport rei...

2018-09-20 13:39:54 235

原创 python机器学习库——结巴中文分词

结巴中文分词安装:pip install jieba1特点:支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议...

2018-09-12 13:06:25 381

原创 分布式系统hadoop、hbase、hive、spark架构原理

重点内容python教程全解 机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,ha...

2018-09-12 13:03:31 381

原创 机器学习 特征工程

...

2018-09-11 10:06:21 211

转载 python人工智能

python基础教程python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器python基础系列教程——Python库的安装与卸载python基础系列教程——Python3.x标准模块库目录python基础系列教程——Python中的编码问题,中文乱码问题python基础系列教程——pyt...

2018-09-09 23:14:51 1758

原创 LASSO算法

1.lasso族算法说明 在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。 Lasso(Least absolute shr...

2018-09-09 14:05:30 6020

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除