2016年10月_天涯__

原创数据预处理——One-hot编码

网上关于One-hot编码的例子都来自于同一个例子，而且结果来的太抖了。查了半天，终于给搞清楚这个独热编码是怎么回事了，其实挺简单的，这里再做个总结。首先，引出例子：已知三个feature，三个feature分别取值如下： feature1=[“male”, “female”] feature2=[“from Europe”, “from US”, “from Asia”]

2016-10-31 16:51:38 8294

原创数据结构栈——前缀表达式计算

前缀式计算时间限制：1000 ms | 内存限制：65535 KB 难度：3 描述先说明一下什么是中缀式：如2+(3+4)5这种我们最常见的式子就是中缀式。而把中缀式按运算顺序加上括号就是：(2+((3+4)5)) 然后把运算符写到括号前面就是+(2 *( +(3 4) 5) ) 把括号去掉就是：+ 2 * + 3 4 5 最后这个式子就是该表达式的

2016-10-30 11:24:25 5679

原创数据结构栈——汉诺塔移动是否合法

汉诺塔（三）时间限制：3000 ms | 内存限制：65535 KB 难度：3 描述在印度，有这么一个古老的传说：在世界中心贝拿勒斯（在印度北部）的圣庙里，一块黄铜板上插着三根宝石针。印度教的主神梵天在创造世界的时候，在其中一根针上从下到上地穿好了由大到小的64片金片，这就是所谓的汉诺塔。不论白天黑夜，总有一个僧侣在按照下面的法则移动这些金片：一次只移动一片，不管在哪根针上

2016-10-26 10:12:14 417

原创数据结构——括号匹配

括号配对问题时间限制：3000 ms | 内存限制：65535 KB 难度：3 描述现在，有一行括号序列，请你检查这行括号是否配对。输入第一行输入一个数N（0<N<=100）,表示有N组测试数据。后面的N行输入多组输入数据，每组输入数据都是一个字符串S(S的长度小于10000，且S不是空串），测试数据组数少于5组。数据保证S中只含有"[","]","(",")"

2016-10-20 10:43:27 2794

原创统计学习浅谈

如果一个系统能够通过执行某个过程改进它的性能，这就是学习。 ————赫尔伯特.西蒙人类的不断学习，经验占了很大的部分。通常我们遇到一件事需要判断，都是根据以往的经验，综合现在的情形，做出决策。而计算机呢？计算机没有自主学习的能力，它的经验就只能靠我们去提供。我们提供的就只能是能被计算机识别的一串串数字，那么计算机如何利用这些数字来形成经验呢？统计学习方法应运而生。计算机通过对数据进

2016-10-19 13:55:32 535

原创整理一下HIVE概念

首先要明白,HIVE是HADOOP生态系统中充当数据仓库的角色。它本质上是是一个SQL解释器，就是使得我们能用SQL查询语言去查询HDFS上的数据。而这个功能，容易让我们误认为它就是传统的数据库。但事实上，它与传统的数据库是有区别的，下文会提到。HIVE的数据分为两个部分，一个是存数据的数据库，另一个是元数据库。下面分两部分单独说。存数据的数据库HIVE中存数据的数据库，会被存在

2016-10-18 14:08:38 826

原创动态规划——寻找子矩阵最大和

最大和时间限制：1000 ms | 内存限制：65535 KB 难度：5 描述给定一个由整数组成二维矩阵（r*c），现在需要找出它的一个子矩阵，使得这个子矩阵内的所有元素之和最大，并把这个子矩阵称为最大子矩阵。例子： 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 其最大子矩阵为： 9 2 -4 1

2016-10-14 22:07:03 3659 1

原创 MySQL一些操作备忘

MySQL连接cmd下可以用mysql -u root -p 登录root。也可以mysql -u -p xxxx 来直接登录某个数据库XXXX。退出用exit 。创建数据库在cmd下可以 mysqladmin -u root -p CREATE XXXX 来创建一个名字叫XXXX的数据库。查看数据库mysql中可以用SHOW DATABASES 来查看所有的数据库，可以用USE XXX

2016-10-13 13:24:43 290

原创动态规划——矩形嵌套问题

矩形嵌套时间限制：3000 ms | 内存限制：65535 KB 难度：4 描述有n个矩形，每个矩形可以用a,b来描述，表示长和宽。矩形X(a,b)可以嵌套在矩形Y(c,d)中当且仅当a<c,b<d或者b<c,a<d（相当于旋转X90度）。例如（1,5）可以嵌套在（6,2）内，但不能嵌套在（3,4）中。你的任务是选出尽可能多的矩形排成一行，使得除最后一个外，每一个矩形都

2016-10-11 10:06:48 2169

原创动态规划——求最长下降/上升子序列

应该算是比较经典的一道题目了。无论是按字母顺序或者按数字顺序，解题的思路都应该是一样的。用动态规划，划分为子问题，就是每个元素当前位置之前的最长子序列加上它自身这个值，就是当前的最长子序列长度。总结一下，算法核心思想就是要找到当前位置元素之前的每个元素对应的最长下降/上升子序列的最大值，然后将它加一，就等于当前位置的子序列长度值了。其复杂度为$latex O(n^{2})$.详见下代码。

2016-10-10 22:19:29 1719

原创线性可分支持向量机（二）

基本概念在线性可分支持向量机（一）中，我们研究的是最理想的情况，即被分类的两类样本点没有交叉，能够完全被分离超平面给分离。但实际上的情况一般都不是那么理想，可能找不出一个完美的分离超平面。有可能有样本点位于分离超平面的另一侧。此时，我们所追求的就是软间隔最大化。软间隔最大化根据博文一的分析，在寻找到支持向量并做出超平面后，对于正确分类的点，它必定满足。现在存在一些不能满足函数间隔大于1的点，可以

2016-10-06 21:35:11 800

原创动态规划经典——最长公共子序列

最长公共子序列时间限制：3000 ms | 内存限制：65535 KB 难度：3 描述咱们就不拐弯抹角了，如题，需要你做的就是写一个程序，得出最长公共子序列。 tip：最长公共子序列也称作最长公共子串(不要求连续)，英文缩写为LCS（Longest Common Subsequence）。其定义是，一个序列 S ，如果分别是两个或多个已知序列的子序列，且是所有符

2016-10-04 11:23:15 1492

原创使用虚拟机从小白开始搭建Spark集群

前言此篇博文记录一个小白如何用虚拟机搭建一个集群的血泪史，用来体验Spark的分布式计算。在搭建之前，先理清一些概念。Spark有三种集群搭建方式。分别为独立集群模式，即standalone模式搭建在Hadoop生态圈的YARN之上搭建在Mesos之上此篇讲述的是第2种。而第2种集群方式，是建立在第1种之上的。也就是说，搭建了第2钟，就可以同时使用第1、2种了。YARN是什么？

2016-10-03 21:46:00 12999 7

原创广度优先搜索——水杯倒水问题

三个水杯时间限制：1000 ms | 内存限制：65535 KB 难度：4 描述给出三个水杯，大小不一，并且只有最大的水杯的水是装满的，其余两个为空杯子。三个水杯之间相互倒水，并且水杯没有标识，只能根据给出的水杯体积来计算。现在要求你写出一个程序，使其输出使初始状态到达目标状态的最少次数。输入第一行一个整数N(0 < N < 50)表示N组测试数据

2016-10-02 10:33:51 5886

wy的点滴