算法
文章平均质量分 91
hyperminer
主要从事机器学习,如推荐算法,数据挖掘算法,深度学习等研究,同时会运用大数据框架如hadoop,hive,spark等来存储/计算
展开
-
求字符串中元素的所有组合
我们知道具有N个元素的数字进行组合,总共有2^N种情况。那么,如何用程序实现输出这些组合呢???这个问题似乎比 求N个元素进行全排列 的问题要复杂一些,大家可以动脑想一下或者动手去写写程序,那么该采取什么样的思路才是简单的呢??? 常规的思路我们会想到使用循环或者递归,但是实际动手操作起来非常复杂,经常会把自己绕晕,或者很难看懂别人写的程序。下面介绍一种使用不同思路实现的方法,简单有效:原创 2014-09-11 21:50:30 · 1256 阅读 · 0 评论 -
numpy scipy pandas sk-learn gensim
NumpyScipy矩阵向量处理。Numpy provides a high-performance multidimensional array and basic tools to compute with and manipulate these arrays. SciPy builds on this, and provides a large number o原创 2016-11-18 14:26:31 · 1273 阅读 · 0 评论 -
局部敏感哈希LSH
参考资料:简单介绍:http://www.cnblogs.com/maybe2030/p/4953039.html在茫茫人海中发现相似的你——局部敏感哈希(LSH):http://www.cnblogs.com/fengfenggirl/p/lsh.html基本思想 局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的原创 2016-11-18 11:34:26 · 697 阅读 · 0 评论 -
语音识别
语音识别没有动手做过,在这里记录一些预先需要了解的知识:GMM算法:http://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html语音识别常用到GMM算法。1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存原创 2016-11-18 11:32:05 · 3798 阅读 · 1 评论 -
Glove笔记
论文出处:http://nlp.stanford.edu/projects/glove/下面准备测试的是python实现版本:github地址:https://github.com/maciejkula/glove-python安装:sudo pip install glove_python下载源码:git clone --r原创 2016-11-18 11:33:01 · 5239 阅读 · 0 评论 -
word2vec笔记
word2vec原始版本应用可以参考博文:http://blog.csdn.net/jj12345jj198999/article/details/11069485在linux上安装使用的步骤大概是:下载源码,make,执行如下命令进行训练:./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -原创 2016-11-18 11:22:33 · 3492 阅读 · 0 评论 -
分词算法笔记
分词模型通常有三种: 基于词典的匹配(trie树,最大匹配法),HMM,CRF查字典的办法最早被提出,就是:把句子从左向右扫描一遍,遇到词典(trie树形式存储)里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的词就分割成单字词。下面使用的是python结巴分词:结巴分词:https://github.com/zhangweijiqn/jieba (分词模原创 2016-11-18 11:21:12 · 4105 阅读 · 0 评论 -
参数服务器笔记
主要用于对分布式机器学习算法/深度学习算法参数优化。简介:http://sanwen8.cn/p/174rUaE.html原理介绍:http://blog.csdn.net/cyh_24/article/details/50545780李沐和陈天奇等国内英才成立的DMLC深度学习项目组:github: https://github.com/d原创 2016-11-18 11:18:44 · 2286 阅读 · 0 评论 -
Kaggle笔记
kaggle比赛:https://www.kaggle.com/competitions在这里可以看到一些机器学习中数据分析的问题,同时在kernels中可以看到哪些技术能够比较好的解决对应的经验贴:https://zhuanlan.zhihu.com/p/22266330预测titanic上的人是否会幸存:https://www.kaggle.com/c/titani原创 2016-11-18 11:17:53 · 1044 阅读 · 0 评论 -
Hyperopt
hyper parameter 调参框架:optunity:http://optunity.readthedocs.io/en/latest/index.htmlHyperoptHyperopt是一个python库,结合MongoDB可以进行分布式调参,快速找到相对较优的参数。安装的时候需要指定dev版本才能使用模拟退火调参,也支持暴力调参、随机调参等策略。http:/原创 2016-11-18 11:16:28 · 2884 阅读 · 0 评论 -
AutoMl
Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?http://www.jmlr.org/papers/volume15/delgado14a/delgado14a.pdfautoML( aotumated Machine Learning)https://github.原创 2016-11-18 11:14:55 · 4586 阅读 · 0 评论 -
Excel2007及以上版本如何计算相关系数和回归等数据分析
先加载数据分析工具,具体方法:分析工具库是在安装 Microsoft Office 或 Excel 后可用的 Microsoft Office Excel 加载项 (加载项:为 Microsoft Office 提供自定义命令或自定义功能的补充程序。)程序。但是,要在 Excel 中使用它,您需要先进行加载。 单击“Microsoft Office 按钮” ,然后单击“Excel 选项”。原创 2013-11-12 21:20:50 · 3811 阅读 · 0 评论 -
找数组中重复元素
一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。原创 2014-09-18 21:43:30 · 813 阅读 · 0 评论 -
二叉树算法(数据结构)
#include #include #include typedef struct TNode{ char data; struct TNode*lchild,*rchild;}TNode,*Tree;Tree Creat( )//按先序序列建立二叉树{ Tree T; char ch=ge原创 2013-06-16 19:47:26 · 857 阅读 · 0 评论 -
图像识别技术——验证码识别
一、数字图像处理基础一幅图像可以定义为一个二维数组f(x,y),这里x,y是空间坐标,而在任何一对空间坐标(x,y)上的幅值f称为该点图像的强度或灰度。当x,y和幅值f为有限的、离散的数值时,称该图像为数字图像。自然界呈现在人眼中的图像是连续的模拟信号,在计算机处理前,必须用图像传感器把光信号转换为表示亮度的电信号,再通过取样和量化得到一副数字图像。取样是对图像在坐标上进行离散化的过程转载 2014-11-11 16:50:47 · 1862 阅读 · 0 评论 -
初识搜索引擎(python简陋版)
搜索引擎原理 相信看到这篇文章的人里不可能有人没使用过搜索引擎,它改变了人们获取信息的方式,可以说是上个十年互联网最伟大的发明。那么怎么写出一个搜索引擎呢?当我们想象自己要凭空写一个谷歌这样的庞然大物,多数人都觉得是个不可能完成的任务。事实上,写出一个谷歌这样处理海量数据的通用搜索引擎确实不是个人或者几个人能够完成的(附1),但搜索引擎的基本原理并不复杂,我们完全有能力写出一个简陋转载 2014-11-09 19:07:59 · 2411 阅读 · 2 评论 -
数据结构二叉树的两个题目
1,设二叉树以二叉链表形式存放,用类C语言设计非递归算法判断一棵根结点为T的二叉树是否为二叉排序树。 (思路:从根结点开始访问,每次从栈中取出一个节点,将其子结点加入到栈中) 这里先给出递归的解法:int IsSearchTree(const BTNode *t){ if(!t) //空二叉树情况 return 1; else if(!(t->原创 2013-10-20 16:37:23 · 3151 阅读 · 1 评论 -
Sk-learn及算法笔记
查看所有的API:http://scikit-learn.org/stable/modules/classes.htmlXGBoost的python API中提供了sklearn版本的API:https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn只要原创 2016-11-18 14:27:38 · 4067 阅读 · 0 评论