2016年06月_wtq1993

转载五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT) – 整理

当Adobe、Microsoft、Sun等一系列巨头开始表现出对”开源”的青睐时，”开源”的时代即将到来！最初来自：sinoprise.com/read.php?tid-662-page-e-fpage-1.html（遗憾的是这个链接已经打不开了），我基本未改动，只是进行了一些排版和整理。参考文献：http://www.fsf.org/licensing/licenses/现今存在的开

2016-06-29 20:30:27 523

原创为什么MongoDB采用B树索引，而Mysql用B+树做索引

先从数据结构的角度来答。题主应该知道B-树和B+树最重要的一个区别就是B+树只有叶节点存放数据，其余节点用来索引，而B-树是每个索引节点都会有Data域。这就决定了B+树更适合用来存储外部数据，也就是所谓的磁盘数据。从Mysql（Inoodb）的角度来看，B+树是用来充当索引的，一般来说索引非常大，尤其是关系性数据库这种数据量大的索引能达到亿级别，所以为了减少内存的占用，索引也会被存储

2016-06-28 15:48:42 9177 4

原创 HDFS详解

本文用到了查看hadoop源码，关于hadoop源码导入Eclipse方式见第一期一、HDFS的背景介绍随着数据量越来越大，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。学术一点的定义就是：分布式文件系统是一种允许文件通过网络在多台主机上分享的文件的系统

2016-06-28 09:04:27 991

转载神经网络Trick之DropConnect

和maxout(maxout简单理解)一样，DropConnect也是在ICML2013上发表的，同样也是为了提高Deep Network的泛化能力的，两者都号称是对Dropout(Dropout简单理解)的改进。　　我们知道，Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0，而用bp更新权值时，不再更新与该节点相连的权值。用公式描述如下：　　其中v是n*1维

2016-06-23 21:46:53 1349

Dropout是2012年深度学习视觉领域的开山之作paper：《ImageNet Classification with Deep Convolutional》所提到的算法，用于防止过拟合。在我刚入门深度学习，搞视觉的时候，就有所耳闻，当时只知道它是为了防止过拟合。记得以前啥也不懂，看到《ImageNet Classification with Deep Convolutional》的思路，然后

2016-06-23 21:27:35 8540 3

转载交叉熵代价函数（cross-entropy cost function）

1.从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算代价函数对w和b的导数：然后更新w、b：w b 因为

2016-06-23 10:37:10 32541 7

转载 TensorFlow架构

TensorFlow又是好久没有写博客了，上班以来，感觉时间过得飞快，每天时间很紧，过得有点累，不知道自己的博客能坚持到何时，且行且珍惜。本片博文是参考文献[1]的阅读笔记，特此声明TensorFlow，以下简称TF，是Google去年发布的机器学习平台，发布以后由于其速度快，扩展性好，推广速度还是蛮快的。江湖上流传着Google的大战略，Android占领了移动端，TF占领神

2016-06-22 16:02:04 636

转载 python利用utf-8编码判断中文英文字符

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符，全角符号转半角符号，unicode字符串归一化等工作。 #!/usr/bin/env Python# -*- coding:GBK -*- """汉字处理的工具:判断unicode是否是汉字，数字，英文，或者其他字符。全角符号转半角符号。""" _

2016-06-20 22:07:06 767

原创对于张量的形象理解

作者：White Pillow链接：https://www.zhihu.com/question/23720923/answer/32739132来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。------------------------------Dan Fleisch是《AStudent’s Guide to Vectors a

2016-06-19 21:23:18 27635 6

原创先验概率与后验概率以及贝叶斯公式

先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.一、先验概率是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率，如贝叶斯公式中的，是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割

2016-06-19 10:53:51 3499

转载 LSA潜在语义分析

在Wiki上看到的LSA的详细介绍，感觉挺好的，遂翻译过来，有翻译不对之处还望指教。原文地址：http://en.wikipedia.org/wiki/Latent_semantic_analysis前言浅层语义分析（LSA）是一种自然语言处理中用到的方法，其通过“矢量语义空间”来提取文档与词中的“概念”，进而分析文档与词之间的关系。LSA的基本假设是，如果两个词多次出

2016-06-18 21:20:52 1134

转载 python 查询 MongoDB 数据库pymongo.errors.OperationFailure: cursor id '26777532088498352' not valid at se

python 查询 MongoDB 数据库。偶尔会遇到pymongo.errors.OperationFailure: cursor id '26777532088498352' not valid at server这样的问题。今天看了下文档，找到了原因。你在用db.collection.find()的时候，它返回的不是所有的数据，而实际上是一个“cursor”。它的默认行为是：第一

2016-06-16 22:28:05 4657 1

转载 LDA主题模型

理解LDA，可以分为下述4个步骤：一个函数：gamma函数，两个分布：beta分布、Dirichlet分布，一个模型：LDA（文档-主题，主题-词语），一个采样：Gibbs采样本文便按照上述4个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。并且，本文基于邹博讲LDA的PPT 、rickjin的LDA数学八卦以及其它参考资料写就，可以定义为一篇学习笔记，若

2016-06-16 09:03:56 1089

转载机器学习算法工程师需要掌握的技能与要踩的坑

1. 前言本来这篇标题我想的是算法工程师的技能，但是我觉得要是加上机器学习在标题上，估计点的人会多一点，所以标题成这样了，呵呵，而且被搜索引擎收录的时候多了一个时下的热门词，估计曝光也会更多点。不过放心，文章没有偏题，我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题，这不是一篇机器学习的技术文章，只是告诉大家机器学习里面的坑实在是太多，而且很多还没入门或者刚刚入门的朋友们

2016-06-10 17:13:40 15285 6

原创机器学习中常见的最优化算法

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，比如每个企业和个人都要考虑的一个问题“在一定成本下，如何使利润最大化”等。最优化方法是一种数学方法，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。随着学习的深入，博主越来越发现最优化方法的重要性，学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解，比如我们现在学习的机器学习算法

2016-06-07 22:08:09 41938 5

原创解决 .gitignore无效，不能过滤某些文件

刚开始新建一个项目可能会把.idea/workspace.xml等这种系统文件或编译中间过程的文件都用git add添加到了git版本库中来管理，这样即使后来添加了.gitignore文件也不能忽略掉已经添加到版本库中的文件，这时需要用 git rm --cache xxx文件再在.gitignore中添加该文件从而实现了对该文件的忽略。。。（.gitignore 与 .git添加到同一级目

2016-06-01 16:16:40 5300

wtq1993的博客