机器学习
文章平均质量分 90
hyperminer
主要从事机器学习,如推荐算法,数据挖掘算法,深度学习等研究,同时会运用大数据框架如hadoop,hive,spark等来存储/计算
展开
-
图像识别技术——验证码识别
一、数字图像处理基础一幅图像可以定义为一个二维数组f(x,y),这里x,y是空间坐标,而在任何一对空间坐标(x,y)上的幅值f称为该点图像的强度或灰度。当x,y和幅值f为有限的、离散的数值时,称该图像为数字图像。自然界呈现在人眼中的图像是连续的模拟信号,在计算机处理前,必须用图像传感器把光信号转换为表示亮度的电信号,再通过取样和量化得到一副数字图像。取样是对图像在坐标上进行离散化的过程转载 2014-11-11 16:50:47 · 1862 阅读 · 0 评论 -
numpy scipy pandas sk-learn gensim
NumpyScipy矩阵向量处理。Numpy provides a high-performance multidimensional array and basic tools to compute with and manipulate these arrays. SciPy builds on this, and provides a large number o原创 2016-11-18 14:26:31 · 1273 阅读 · 0 评论 -
局部敏感哈希LSH
参考资料:简单介绍:http://www.cnblogs.com/maybe2030/p/4953039.html在茫茫人海中发现相似的你——局部敏感哈希(LSH):http://www.cnblogs.com/fengfenggirl/p/lsh.html基本思想 局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的原创 2016-11-18 11:34:26 · 697 阅读 · 0 评论 -
语音识别
语音识别没有动手做过,在这里记录一些预先需要了解的知识:GMM算法:http://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html语音识别常用到GMM算法。1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存原创 2016-11-18 11:32:05 · 3798 阅读 · 1 评论 -
Glove笔记
论文出处:http://nlp.stanford.edu/projects/glove/下面准备测试的是python实现版本:github地址:https://github.com/maciejkula/glove-python安装:sudo pip install glove_python下载源码:git clone --r原创 2016-11-18 11:33:01 · 5239 阅读 · 0 评论 -
word2vec笔记
word2vec原始版本应用可以参考博文:http://blog.csdn.net/jj12345jj198999/article/details/11069485在linux上安装使用的步骤大概是:下载源码,make,执行如下命令进行训练:./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -原创 2016-11-18 11:22:33 · 3492 阅读 · 0 评论 -
分词算法笔记
分词模型通常有三种: 基于词典的匹配(trie树,最大匹配法),HMM,CRF查字典的办法最早被提出,就是:把句子从左向右扫描一遍,遇到词典(trie树形式存储)里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的词就分割成单字词。下面使用的是python结巴分词:结巴分词:https://github.com/zhangweijiqn/jieba (分词模原创 2016-11-18 11:21:12 · 4105 阅读 · 0 评论 -
参数服务器笔记
主要用于对分布式机器学习算法/深度学习算法参数优化。简介:http://sanwen8.cn/p/174rUaE.html原理介绍:http://blog.csdn.net/cyh_24/article/details/50545780李沐和陈天奇等国内英才成立的DMLC深度学习项目组:github: https://github.com/d原创 2016-11-18 11:18:44 · 2286 阅读 · 0 评论 -
Kaggle笔记
kaggle比赛:https://www.kaggle.com/competitions在这里可以看到一些机器学习中数据分析的问题,同时在kernels中可以看到哪些技术能够比较好的解决对应的经验贴:https://zhuanlan.zhihu.com/p/22266330预测titanic上的人是否会幸存:https://www.kaggle.com/c/titani原创 2016-11-18 11:17:53 · 1044 阅读 · 0 评论 -
Hyperopt
hyper parameter 调参框架:optunity:http://optunity.readthedocs.io/en/latest/index.htmlHyperoptHyperopt是一个python库,结合MongoDB可以进行分布式调参,快速找到相对较优的参数。安装的时候需要指定dev版本才能使用模拟退火调参,也支持暴力调参、随机调参等策略。http:/原创 2016-11-18 11:16:28 · 2884 阅读 · 0 评论 -
AutoMl
Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?http://www.jmlr.org/papers/volume15/delgado14a/delgado14a.pdfautoML( aotumated Machine Learning)https://github.原创 2016-11-18 11:14:55 · 4586 阅读 · 0 评论 -
xgboost and xgboost4j
XGBoostScalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Flink and DataFlow可扩展、原创 2016-11-18 11:14:03 · 18123 阅读 · 3 评论 -
深度学习之卷积神经网络CNNs
关于深度学习可以查看博文:http://blog.csdn.net/nan355655600/article/details/17690029卷积神经网络是人工神经网络的一种,下面介绍一下卷积神经网络:Convolutional Neural Networks卷积神经网络 卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使原创 2015-05-21 09:50:54 · 3002 阅读 · 0 评论 -
特征选择-常见的搜索算法
2.2.1完全搜索 完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(Non-Exhaustive)两类。 (1) 广度优先搜索( Breadth First Search ) 算法描述:广度优先遍历特征子空间。 算法评价:枚举了所有的特征组合,属于穷举搜索,时间复杂度是O(2n),实用性不高。 (2)分支限界搜索( Br转载 2013-06-17 10:18:08 · 9970 阅读 · 0 评论 -
RF Algorithm(随机森林算法)与欧氏距离
原文出处:https://cwiki.apache.org/MAHOUT/random-forests.html 以下代码均为伪代码Random Forestssource : [3] LearnUnprunedTree(X,Y) Input: X a matrix of R rows and M columns where Xij转载 2013-06-16 19:38:19 · 2400 阅读 · 0 评论 -
主成成分分析pca算法 原理解析
目前,pca算法已经广泛应用于各方面,就拿图像处理,经常做的一件事就是当提取的图像特征维度比较高时,为了简化计算量以及储存空间,需要对这些高维数据进行一定程度上的降维,并尽量保证数据的不失真。先举个例子,方便理解: 1)对于一个训练集,100个sample(i=1,2,3,...,100),特征Xi是20维.[Xi1,Xi2,Xi3,...Xij,...,Xi20](j=1,2,转载 2013-09-05 16:33:21 · 1087 阅读 · 0 评论 -
决策树算法学习笔记(转载)
文章出处:http://blog.sina.com.cn/s/blog_8095e51d01013chj.html今天学习了决策树算法中的ID3、c4.5、CART算法,记录如下: 决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目标变量区分出来,所有决策树算法的关键点如下: 1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量转载 2013-06-16 19:48:04 · 1133 阅读 · 0 评论 -
如何计算PCA得分
主成分分析 ( Principal Component Analysis , PCA )主要 用于数据降维,做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小原创 2013-07-18 10:43:41 · 8886 阅读 · 1 评论 -
Sk-learn及算法笔记
查看所有的API:http://scikit-learn.org/stable/modules/classes.htmlXGBoost的python API中提供了sklearn版本的API:https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn只要原创 2016-11-18 14:27:38 · 4067 阅读 · 0 评论