![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Image/Audio/ML...
xiahouzuoxin
这个作者很懒,什么都没留下…
展开
-
深度卷积网络CNN与图像语义分割
转载请注明出处: http://xiahouzuoxin.github.io/notes/级别1:DL快速上手级别2:从Caffe着手实践级别3:读paper,网络Train起来级别3:Demo跑起来读一些源码玩玩熟悉Caffe接口,写Demo这是硬功夫分析各层Layer输出特征级别4:何不自己搭个CNN玩玩级别5:加速吧,GPU编程关于语义分割的一些其它工作说好的要笔耕不缀,这开始一边实习一边找原创 2015-08-19 22:33:05 · 92065 阅读 · 47 评论 -
矩阵特征值分解与奇异值分解含义解析及应用
此文有一半转载自他出,主要在这进行个整理,具体内容文中都有相关的转载链接。特征值与特征向量的几何意义矩阵的乘法是什么,别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”,还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”,然而,这里却会和你说——那都是表象。矩阵乘法真正的含义是变换,我们学《线性代数》一开始就学行变换列变换,那才是线代的核心——别会了点猫腻就忘了本——对,矩阵乘法原创 2014-11-14 14:28:10 · 111195 阅读 · 16 评论 -
基于谱减法的声音去噪
转载请注明出处: http://xiahouzuoxin.github.io/notes/谱减法模型实际听觉环境中,肯定是含有噪声的,那掺杂有噪声的声音信号中原声音信号和噪声信号是如何体现的呢?一种普遍被使用的方法是:采集到的声音信号永远都是原信号与噪声信号的叠加,即模型是信号的直接叠加,这就要满足:原信号与噪声信号不相关。其实有些情况下这个条件是不满足的,所以依然有很多其他的模型,如有人认为原信原创 2014-11-14 21:25:16 · 26330 阅读 · 2 评论 -
OpenCV基础篇之图像的DFT频域变换
本文给出使用OpenCV实现图像从空域到频域变换的程序,并给出相关的程序注解及图像频域的物理含义解释,请看正文。。。。原创 2014-09-16 21:51:22 · 28002 阅读 · 8 评论 -
OpenCV图像处理篇之采样金字塔
转载请注明出处:http://xiahouzuoxin.github.io/notes图像金字塔图像金字塔是通过将原始图像经过平滑、下采样所生成一系列具有不同分辨率的图像的集合。金字塔结构(Pyramid)适于多分辨率处理的一种图像存储数据结构。最常用的生成图像金字塔的方法是采用高斯函数平滑图像,每次将分辨率降低为原来的一半,由此得到一个图像序列{ML,ML-1,……,M0},图像金字塔的存储量为原创 2014-09-20 20:25:45 · 15810 阅读 · 3 评论 -
OpenCV图像处理篇之腐蚀与膨胀
转载请注明出处:http://xiahouzuoxin.github.io/notes腐蚀与膨胀腐蚀和膨胀是图像的形态学处理中最基本的操作,之后遇见的开操作和闭操作都是腐蚀和膨胀操作的结合运算。腐蚀和膨胀的应用非常广泛,而且效果还很好:腐蚀可以分割(isolate)独立的图像元素,膨胀用于连接(join)相邻的元素,这也是腐蚀和膨胀后图像最直观的展现去噪:通过低尺寸结构元素的腐蚀操作很容易去掉分散原创 2014-09-19 22:18:31 · 38166 阅读 · 0 评论 -
OpenCV图像处理篇之图像平滑
图像平滑算法图像平滑与图像模糊是同一概念,主要用于图像的去噪。平滑要使用滤波器,为不改变图像的相位信息,一般使用线性滤波器,其统一形式如下:其中h称为滤波器的核函数,说白了就是权值。不同的核函数代表不同的滤波器,有不同的用途。在图像处理中,常见的滤波器包括:归一化滤波器(Homogeneous blur)也是均值滤波器,用输出像素点核窗口内的像素均值代替输出点像素值。高斯滤波器(Guassian原创 2014-09-18 21:24:57 · 29284 阅读 · 0 评论 -
OpenCV基础篇之图片叠加
程序及分析/* * FileName : blend.cpp * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Mon 28 Jul 2014 08:47:59 PM CST * Brief : * * Copyright (C) MICL,USTB */#include #includ原创 2014-07-30 12:36:04 · 6046 阅读 · 2 评论 -
OpenCV基础篇之像素访问
程序及分析/* * FileName : get_pixels.cpp * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Sun 01 Jun 2014 06:40:54 PM CST * Brief : * * Copyright (C) MICL,USTB */#include #i原创 2014-07-30 12:37:16 · 3309 阅读 · 0 评论 -
CentOS上编译安装OpenCV-2.3.1与ffmpeg-2.1.2
已测试环境:CentOS 6.3 32bitCentOS 6.5 64bit曾经在CentOS 6.3 32bit安装过OpenCV,参见CentOS 6.3中安装OpenCV2.3.1,如今换了64bit系统,大刀阔斧,重新来一遍。检查并安装相关程序,确保gtk安装成功,否则无法显示图片yum install gcc-c++ # g++编译yum install gt原创 2014-07-30 12:33:22 · 4520 阅读 · 4 评论 -
读取*.wav音频文件
1、wav音频文件的格式wav文件由文件头和采样数据2部分组成。文件头又分为RIFF(Resource Interchange File Format)、WAVE文件标识段 和 声音数据格式说明段组成。各段的起始地址分别由RIFF标识符、WAVE标识符、以及波形格式标识符(FMT)标定。(1)文件头格式注意:下面的地址是连续的 (2)数据格式 虽然原创 2012-08-16 23:59:12 · 26737 阅读 · 20 评论 -
OpenCV图像处理篇之边缘检测算子
3种边缘检测算子灰度或结构等信息的突变位置是图像的边缘,图像的边缘有幅度和方向属性,沿边缘方向像素变化缓慢,垂直边缘方向像素变化剧烈。因此,边缘上的变化能通过梯度计算出来。一阶导数的梯度算子对于二维的图像,梯度定义为一个向量,Gx对于x方向的梯度,Gy对应y方向的梯度,向量的幅值本来是 mag(f) = (Gx2 + Gy2)1/2,为简化计算,一般用mag(f)=|Gx|+|Gy|近似,幅值同时原创 2014-11-16 15:41:57 · 46146 阅读 · 2 评论 -
Stanford机器学习课程笔记3-学习理论部分
简单补充点SVM吧关于SVM的笔记博客内没有整理,主要是因为自己对SVM是比较熟悉,大大小小的识别也用过很多SVM了,对SVM的一些理论和使用技巧可看看我之前整理的关于LibSVM使用libsvm笔记系列(1)——编译使用LIBSVMLibSVM笔记系列(2)——如何提升LibSVM分类效果LibSVM笔记系列(3)——初学移植libsvm的C/C++版本已经有很多关于SVM的资料和博文另外,关于原创 2015-05-05 09:07:29 · 3097 阅读 · 0 评论 -
Stanford机器学习课程笔记1-Linear Regression与Logistic Regression
转载请注明出处: http://xiahouzuoxin.github.io/notes/课程计划Linear Regression与预测问题Locally Weighted Linear RegressionLogistic Regression与分类问题Stanford机器学习课程的主页是: http://cs229.stanford.edu/课程计划主讲人Andrew Ng是机器学习界的大牛原创 2015-04-09 14:00:20 · 8237 阅读 · 3 评论 -
Stanford机器学习课程笔记2-高斯判别分析与朴素贝叶斯
转载请注明出处: http://xiahouzuoxin.github.io/notes/判别学习算法和生成学习算法高斯判别分析(Gaussian Discriminant Analysis)朴素贝叶斯算法(Naive Bayesian)拉普拉斯平滑(Laplace smoothing)判别学习算法和生成学习算法判别学习算法:直接学习p(y|x),即直接通过输入特征空间x去确定目标类型{0,1},原创 2015-04-23 16:35:43 · 10090 阅读 · 1 评论 -
OpenCV集成到Qt的尝试-zximage
这一个多月的时间一直忙着写程序,做论文,都没来得及更新博客,当时定下的伟大目标——每周一篇——就这样一溜烟的随着时间的缝隙划过,又留下我低徊忏悔。这是2015年的第一篇博文,希望自己继续坚持下去。回头看看之前写得博文,回忆渐渐涌上心头啊……回顾了下之前的OpenCV博文,这次用Qt简单做了个界面程序(且给个名字zximage),关于在Qt中集成OpenCV在搭建Qt界面的OpenCV开发环境一文中原创 2015-01-14 19:19:50 · 3079 阅读 · 1 评论 -
读论文BinarizedNormedGradientsforObjectnessEstimationat300fps
关于论文这两天翻了翻cvpr2014的论文,发现程明明老师关于Objectness Detecting的论文,于是拜读了一番。论文贡献了两个观点:目标有closed boundary,因此将窗口resize到8x8也能进行目标和背景的识别,这实际上降低了窗口的分辨率,resize到8x8目的是加速计算。这就相当于我们看路上走的人一样,在很远的地方即使我们没看清楚脸,只是看到一个轮廓也能识别出是不是原创 2014-12-03 09:41:07 · 8369 阅读 · 36 评论 -
分类算法中的ROC与PR指标
做过图像识别、机器学习或者信息检索相关研究的人都知道,论文的实验部分都要和别人的算法比一比。可怎么比,人多嘴杂,我说我的方法好,你说你的方法好,各做各的总是不行——没规矩不成方圆。于是慢慢的大家就形成了一种约定,用ROC曲线和PR曲线来衡量算法的优劣。关于ROC曲线和PR曲线的详细介绍可参考资料:ROC Analysis and the ROC Convex HullTom Fawcett,An原创 2015-01-26 22:43:19 · 27766 阅读 · 0 评论 -
搭建Qt界面的OpenCV开发环境
OpenCV包含了大量的机器视觉处理算法,虽然也提供了highgui的界面功能,但实在有限(也就是一个窗口,加一些使用像素进行绘图的方法),与用户交互相关的功能极少(比如有Trackbar),貌似连个可视化的用户接口的button也没见过,而Qt正好能弥补OpenCV在这些方面的不足:通过OpenCV完成底层算法,用Qt完成上层的应用接口,哇咔,这不是完美组合么!本文原来的初衷是想通过Qt开发来实原创 2014-12-03 09:39:55 · 38235 阅读 · 16 评论 -
基于AR谱特征的声目标识别
本文第一部分先解释AR谱,但并不会给出太多的细节,第二部分介绍几种常见的语音中的特征,有些在之前的博文中已经用过,诸如过零率。第三部分给出实际操作的过程及识别的效果。本文的目标是通过对DSP采集的声音信号提取特征,识别卡车和飞机。转载请注明出处: xiahouzuoxin.github.io关于AR谱AR模型全称Auto-Regression Model,是通过参数计算信号功率谱的一种方法。在Ma原创 2014-11-07 20:47:32 · 5298 阅读 · 0 评论 -
OpenCV基础篇之绘图及RNG随机数对象
程序及分析/* * FileName : random_gen.c * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Tue 29 Jul 2014 08:31:41 PM CST * Brief : * * Copyright (C) MICL,USTB */#include #inc原创 2014-07-30 12:38:28 · 6131 阅读 · 0 评论 -
OpenCV基础篇之像素操作对比度调节
程序及分析/* * FileName : contrast.cpp * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Tue 29 Jul 2014 08:09:57 PM CST * Brief : * * Copyright (C) MICL,USTB */#include #inc原创 2014-07-30 12:39:01 · 4608 阅读 · 0 评论 -
LibSVM笔记系列(2)——如何提升LibSVM分类效果
提升LibSVM分类效果的一些技巧原创 2013-07-18 20:30:37 · 24510 阅读 · 3 评论 -
libsvm笔记系列(1)——编译使用LIBSVM
LIBSVM is an integrated software for support vector classification, (C-SVC,nu-SVC),regression (epsilon-SVR,nu-SVR) and distribution estimation (one-class SVM). It supports multi-class classificati原创 2013-07-18 16:39:49 · 12033 阅读 · 3 评论 -
一些支持向量机(SVM)的开源代码库的链接及其简介
转载出处:http://blog.csdn.net/carson2005/article/details/8586201(1)LIBSVM: http://www.csie.ntu.edu.tw/~cjlin/libsvm/LIBSVM is an integrated software for support vector classification,转载 2013-03-02 18:10:11 · 3522 阅读 · 0 评论 -
关于GraphCuts分割算法
【简介】Graph Cuts 不等于 graph cut(如 min cut、normalizedcut、RatioCut), 是最近在计算机视觉中研究和应用比较多的energyminimization(能量函数最小化)优化算法,典型的用于stereo matching, image restortion,texture synthesis等应用。 这个优化算法用来解 markov R转载 2012-12-17 13:46:03 · 8734 阅读 · 0 评论 -
Class_Segmentation_and_Object_Localization_with_Superpixel_Neighborhoods
《Class_Segmentation_and_Object_Localization_with_Superpixel_Neighborhoods》是一篇关于使用超像素实现目标查找的文章,作者一方面使用QuickSHift获取超像素,另一方面使用SIFT提取原图像的特征,将特征用K-means聚类。然后将超像素和聚类后的类别对应,用聚类后的类别特征描述超像素。由于本人做研究需要用到,并且觉得是一篇翻译 2012-11-07 21:02:04 · 2188 阅读 · 0 评论 -
[转帖]李菲菲 bag of words
Bag-Of-Words中K-Means聚类的效率优化最初的Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词 是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。转载 2012-11-02 09:12:52 · 3436 阅读 · 0 评论 -
libmad使用一步步进阶
原文地址:http://my.oschina.net/mjRao/blog/57874libmad是一个开源mp3解码库,其对mp3解码算法做了很多优化,性能较好,很多播放器如mplayer、xmms等都是使用这个开源库进行解码的;如果要设计mp3播放器而又不想研究mp3解码算法的话,libmad是个不错的选择,可是问题来了:libmad配套的相关文档太少,可以说几乎没有,只有一个示例转载 2012-08-15 00:14:19 · 6211 阅读 · 1 评论 -
MP3文件格式解析
转一:笔者根据德国Fraunhofer IIS (http://www.iis.fhg.de/amm/ )公布的MPEG Audio解码程序进行简化后编写了一个最简MP3解码程序。有兴趣的读者可以参考对应的源程序(http://www.see.online.sh.cn/ch/sw/self/rainplay/layer3.zip)。 MP3文件由多个帧组成,也就转载 2012-08-13 15:50:18 · 6653 阅读 · 0 评论 -
MP3编码分析
目录一、MP3文件格式解析....21、MP3文件及MPEG概述...2二、MP3编码原理....41、MP3编码流程...42、子带滤波器排——编码流程图中编号为1......53、改良后的DCT(MDCT)——编码流程图中编号为2......74、声音心理学模型——编码流程图中编号为3......85、位元分配、量化和Huffman编码——4......12原创 2012-08-11 14:21:02 · 19627 阅读 · 11 评论 -
LibSVM笔记系列(3)——初学移植libsvm的C/C++版本
在LibSVM笔记系列(1)中已经提到在g++环境中编译LibSVM只需要一个make命令那样简单。本文将介绍(1)LibSVM的编译文件结构(2)svm_train.c 和 svm_predict.c源代码分析(3)如何将LibSVM移植到eclipse IDE环境中1. LibSVM编译文件结构要了解一个工程是如何编译链接的,最好的办法是参考Makefile。原创 2013-07-19 11:08:26 · 16569 阅读 · 0 评论 -
OpenCV基础篇之读取显示图片
程序及分析/* * FileName : read.cpp * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Tue 13 May 2014 07:34:25 PM CST * Brief : * * Copyright (C) MICL,USTB */#include #include原创 2014-07-30 12:31:56 · 3143 阅读 · 0 评论 -
OpenCV基础篇之查找表
程序及分析/* * FileName : lookup_table.cpp * Author : xiahouzuoxin @163.com * Version : v1.0 * Date : Sun 01 Jun 2014 04:35:37 PM CST * Brief : * * Copyright (C) MICL,USTB */#include原创 2014-07-31 18:38:29 · 7790 阅读 · 0 评论 -
国内机器学习/数据挖掘大牛
推荐几个机器学习和数据挖掘领域相关的中国大牛:李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的研究。曾在人大听过一场他的转载 2014-01-10 09:12:43 · 3671 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解转载 2014-01-02 11:37:21 · 1575 阅读 · 0 评论 -
多层神经网络
本文简单整理自《模式分类》第二版的第六章,先上一张图,描述了三层神经网络的基本概念。多层神经网络的理论基础参见《模式分类》第六章。下面将简单分析一个stochasic backpropagation的matlab代码function [test_targets, Wh, Wo, J] = Backpropagation_Stochastic(train_patterns, trai原创 2013-07-15 12:51:54 · 6921 阅读 · 1 评论 -
解密回声消除技术之二(应用篇)
从应用平台来看,根据笔者多年的经验,可以把回声消除分为两大类:基于DSP等实时平台的回声消除技术和基于Windows等非实时平台的回声消除技术。两者的技术难度和重点是不一样的。 三、基于DSP平台的回声消除技术回声消除技术传统的应用领域是各种嵌入式设备,包括各种电信网络设备和终端设备。网络设备比如交换机,网关等等,终端则包括移动电话终端,视频会议终端等。现代通讯产品里面大量应用了回声消转载 2013-09-02 21:07:06 · 1734 阅读 · 0 评论 -
解密回声消除技术之一(理论篇)
一、前言因为工作的关系,笔者从2004年开始接触回声消除(Echo Cancellation)技术,而后一直在某大型通讯企业从事与回声消除技术相关的工作,对回声消除这个看似神秘、高端和难以理解的技术领域可谓知之甚详。要了解回声消除技术的来龙去脉,不得不提及作为现代通讯技术的理论基础——数字信号处理理论。首先,数字信号处理理论里面有一门重要的分支,叫做自适应信号处理。而在经典的教材里面,回声转载 2013-09-02 21:05:21 · 2670 阅读 · 0 评论 -
CentOS 6.3中安装OpenCV2.3.1
CentOS6.3安装OpenCV 2.3.1的步骤原创 2013-08-08 09:45:34 · 2566 阅读 · 0 评论