2012年09月_wolenski

转载 Sublime Text 快捷键

Ctrl+L选择整行(按住-继续选择下行)Ctrl+KK从光标处删除至行尾Ctrl+Shift+K删除整行Ctrl+Shift+D复制光标所在整行，插入在该行之前Ctrl+J合并行(已选择需要合并的多行时)Ctrl+KU改为大写

2012-09-19 22:48:12 891

转载 ROC曲线及AUC评价指标

转自：http://bubblexc.com/y2011/148/很多时候，我们希望对一个二值分类器的性能进行评价，AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)，使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子：测试样本中有A类样本90个，B

2012-09-29 09:39:39 2178

转载方向导数和梯度

之前用过几次梯度下降算法来求解一些优化问题，但对梯度的具体意义并不是很理解。前一段时间翻了一遍高教的《简明微积分》，对梯度概念总算有了些理解，在这记录一下。推荐下《简明微积分》这本书，我向来对带有“简明”二字的书抱有极大的好感。偶然的机会在豆瓣上看到有人推荐这本书，作者是龚升先生。龚升先生是中国科技大学教授，师从华罗庚。我个人觉得这本书是我读过的最好的国内的数学教材，结构条理，不拖沓但重点突出

2012-09-29 09:37:16 47133 3

转载 AdaBoost

from http://stblog.baidu-tech.com/?p=19wiki http://en.wikipedia.org/wiki/AdaBoost一、Boosting算法的发展历史　　Boosting算法是一种把若干个分类器整合为一个分类器的方法，在boosting算法产生之前，还出现过两种比较重要的将多个分类器整合为一个分类器的方法，即boostrapping方法

2012-09-24 10:34:07 3062

转载找出二叉树中最大的二叉查找树部分

Given a binary tree, find the largest Binary Search Tree (BST), where largest means BST with largest number of nodes in it. The largest BST may or may not include all of its descendants.Note

2012-09-20 14:37:59 1102

转载将排序链表转为平衡二叉查找树

Given a singly linked list where elements are sorted in ascending order, convert it to a height balanced BST.If you have not checked out my previous post: Convert Sorted Array to Balanced Bina

2012-09-20 10:33:44 1682

转载将排序数组转为平衡二叉查找树

Given an array where elements are sorted in ascending order, convert it to a height balanced BST.If you are having hard time in understanding my previous post: Largest Binary Search Tree (BST)

2012-09-20 10:32:07 977

Given a node from a cyclic linked list which has been sorted, write a function to insert a value into the list such that it remains a cyclic sorted list. The given node can be any single node in the l

2012-09-19 23:09:06 794

转载 Hulu的推荐引擎阅读笔记

========数据准备========一， Item Datashows’ type：on-air shows（直播剧）library shows（普通剧情）他们的重要性以及时域上的变化结构其中直播剧很重要，占了一大部分流量，普通剧情也非常重要，到了夏天，周末，直播局的流量就会下降，普通剧就会上升。二， User Data

2012-09-17 16:31:24 1089

转载非常好的协同过滤入门文章

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助

2012-09-17 16:16:11 3874

转载 SVM（三）支持向量机，线性不可分和核函数

3.1 线性不可以分我们之前讨论的情况都是建立在样例线性可分的假设上，当样例线性不可分时，我们可以尝试使用核函数来将特征映射到高维，这样很可能就可分了。然而，映射后我们也不能100%保证可分。那怎么办呢，我们需要将模型进行调整，以保证在不可分的情况下，也能够尽可能地找出分隔超平面。看下面两张图：可以看到一个离群点（可能是噪声）可以造成超平面的移动，间隔缩小，可见以前的模型对噪声非常

2012-09-17 14:15:57 2185

转载 SVM(二）拉格朗日对偶问题

2 拉格朗日对偶（Lagrange duality）先抛开上面的二次规划问题，先来看看存在等式约束的极值问题求法，比如下面的最优化问题：目标函数是f(w)，下面是等式约束。通常解法是引入拉格朗日算子，这里使用来表示算子，得到拉格朗日公式为 L是等式约束的个数。然后分别对w和求偏导，使得偏导数等于0，然后解出w和

2012-09-17 14:14:52 5024

转载 SVM(一) 问题的提出

SVM是支持向量机从诞生至今才10多年，发展史虽短，但其理论研究和算法实现方面却都取得了突破性进展，有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料，目前关于SVM大约有3到4个版本，但在网上到处都是转载的内容，最后谁叶不知原稿人是谁。svm主要分有4个问题 1.问题的提出

2012-09-17 14:14:12 1918

转载 logistic regression及其参数估计

在统计分析还有机器学习中，logistic regression都一种比较基本的工具。说基本也是相对的，在专业领域里很基础，但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么一般理工科学生都很熟悉linear regression，但是对logistic regression了解就要少一些。linear regr

2012-09-17 10:55:39 8776

转载拉格朗日乘数法

在数学最优化问题中，拉格朗日乘数法（以数学家约瑟夫·路易斯·拉格朗日命名）是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题，其变量不受任何约束。这种方法引入了一种新的标量未知数，即拉格朗日乘数：约束方程的梯度（gradient）的线性组合里每个向量的系数。此方法的证明牵涉到偏微分

2012-09-17 10:00:14 13444

转载判别式模型与生成式模型

判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：对于输入x，类别标签y：产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。Andrew Ng在NIPS2001

2012-09-16 20:34:48 45508 1

转载机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

2012-09-16 16:45:06 2973 1

转载机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

2012-09-16 16:37:52 654

转载机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

2012-09-16 14:17:37 870

转载 K-means聚类算法

K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设

2012-09-16 09:58:15 1584

转载 EM算法[The EM Algorithm]

EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果

2012-09-16 09:45:02 965

转载推荐体系之协同过滤概述

http://www.vanjor.org/blog/2011/05/rs-collaborative-filtering/集体的力量如钢铁，世人的聪明如日月协同过滤（Collaborative Filtering）是现今推荐体系中应用最为成熟的一个推荐算法系类，它哄骗爱好相投、拥有共同经验之群体的爱好来推荐应用者感爱好的资讯，小我透过合作的机制赐与资讯相当程度的回应（

2012-09-15 17:03:08 6111

转载图解SQL的各种连接join

对于SQL的Join，在学习起来可能是比较乱的。我们知道，SQL的Join语法有很多inner的，有outer的，有left的，有时候，对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章（实在不清楚为什么Coding Horror也被墙）通过文氏图 Venn diagrams解释了SQL的Join。我觉得清楚易懂，转过来。假设我们有两张表，Table

2012-09-14 20:48:38 1380

转载 SQL常用命令实例详解

SQL是Structured Quevy Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集，是一种功能齐全的数据库语言。在使用它时，只需要发出“做什么”的命令，“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便，已经成为了数据库操作的基础，并且现在几乎所有的数据库均支持SQL。一.建一个新的数据库例:creat database

2012-09-14 20:20:21 2075

原创数据库事务四大特性

数据库事务是指作为单个逻辑工作单元执行的一系列操作，这些操作要么全做要么全不做，是一个不可分割的工作单位。数据库事务的四大特性(简称ACID)是：(1) 原子性(Atomicity)事务的原子性指的是，事务中包含的程序作为数据库的逻辑工作单位，它所做的对数据修改操作要么全部执行，要么完全不执行。这种特性称为原子性。例如银行取款事务分为2个步骤(1)存折减款(2)提取现金。不

2012-09-14 20:16:27 44176 1

转载 Huffman 编码压缩算法

作者：陈皓 | 来自：酷壳 - CoolShell.cn前两天发布那个rsync算法后，想看看数据压缩的算法，知道一个经典的压缩算法Huffman算法。你应该听说过David Huffman和他的经典的压缩算法——Huffman Code，这是一种通过字符出现频率，Priority Queue，和二叉树来进行的一种压缩算法，这种二叉树又叫Huffman二叉树 —— 一种带权重的

2012-09-14 19:44:56 813

转载 SVD分解的理解

SVD分解（奇异值分解），本应是本科生就掌握的方法，然而却经常被忽视。实际上，SVD分解不但很直观，而且极其有用。SVD分解提供了一种方法将一个矩阵拆分成简单的，并且有意义的几块。它的几何解释可以看做将一个空间进行旋转，尺度拉伸，再旋转三步过程。首先来看一个对角矩阵，几何上, 我们将一个矩阵理解为对于点 (x, y) 从一个平面到另一个平面的映射:下图显示了这个映射的效果: 平

2012-09-14 16:33:51 1009

转载推荐系统-从入门到精通

为了方便大家从理论到实践，从入门到精通，循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读，也欢迎提出意见和指出未标明的经典文献以丰富各学科需求（为避免初学者疲于奔命，每个方向只推荐几篇经典文献）。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了解概念-进阶篇)a) 2004ACMTo

2012-09-14 16:19:46 568

转载 SVD分解

前面写了个简单的线性代数系列文章，目的就是让大家在接触SVD分解前，先了解回忆一下线性代数的基本知识，有助于大家理解SVD分解。不至于一下被大量的线性代数操作搞晕。这次终于开始正题——SVD的介绍了。所谓SVD，就是要把矩阵进行如下转换：A = USVTthe columns of U are the eigenvectors of the AAT matrix and the colum

2012-09-14 16:17:05 927

转载寻找满足二叉查找树性质的最大子树

Given a binary tree, find the largest subtree which is a Binary Search Tree (BST), where largest means subtree with largest number of nodes in it.Note:In this post, we develop a solution to

2012-09-14 15:13:51 798

转载 SVM入门（十）将SVM用于多类分类

从 SVM的那几张图可以看出来，SVM是一种典型的两类分类器，即它只回答属于正类还是负类的问题。而现实中要解决的问题，往往是多类的问题（少部分例外，例如垃圾邮件过滤，就只需要确定“是”还是“不是”垃圾邮件），比如文本分类，比如数字识别。如何由两类分类器得到多类分类器，就是一个值得研究的问题。还以文本分类为例，现成的方法有很多，其中一种一劳永逸的方法，就是真的一次性考虑所有样本，并求解一个多目标

2012-09-14 10:59:55 754

转载 SVM入门（九）松弛变量（续）

接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用

2012-09-14 10:55:00 717

转载 SVM入门（八）松弛变量

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：就是图中黄色那个点，它是

2012-09-14 10:42:41 641

转载 SVM入门（七）为何需要核函数

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说

2012-09-14 10:28:58 559

转载 SVM入门（六）线性分类器的求解——问题的转化，直观角度

让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图，圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负例。我们想求得这样一个线性函数（在n维空间中的线性函数）：g(x)=wx+b 使得所有属于正类的点x+代入以后有g(x+)≥1，而所有属于负类的点x-代入后有g(x-)≤-1（

2012-09-14 10:05:43 793

转载 SVM入门（五）线性分类器的求解——问题的描述Part2

从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：（式1）约束条件用函数c来表示，就是constrain的意思啦。你可以看出一共有p+q个约束条件，其中p个是不等式约束，q个等式约束。关于这个式子可以这样来理解：式中的x是自变量，但不限定它的维

2012-09-14 09:20:15 475

转载 SVM入门（四）线性分类器的求解——问题的描述Part1

上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)| 几何间隔：可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几

2012-09-14 09:16:50 719

转载 SVM入门（一）至（三）

按:之前的文章重新汇编一下,修改了一些错误和不当的说法，一起复习,然后继续SVM之旅.（一）SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结

2012-09-14 09:08:25 934

转载没有重复字符的最长子串

转自leetcodeGiven a string, find the length of the longest substring without repeating characters. For example, the longest substring without repeating letters for “abcabcbb” is “abc”, which the

2012-09-13 15:27:16 955

转载将一个无符号整数的bit位逆序

http://www.leetcode.com/2011/08/reverse-bits.htmlThere are several methods of reversing the bits of an unsigned integer. Here, we devise an algorithm using the XOR swap trick, and then optimize

2012-09-13 15:03:54 2095

IrisSkin官方皮肤包

一些互联网公司的笔试题

优酷土豆笔试题

腾讯笔试题

百度笔试题

google笔试题

斯坦福大学机器学习课程原始讲义

空空如也