2016年07月_天涯__

原创决策树与随机森林相关概念及其Python实现

决策树所谓的决策树，就是一种树形结构。其内部每个节点代表一个特征的测试，每个一个分支代表测试的输出，而每个叶子节点则代表一种类别。而随机森林，就是指的一群决策树所组成的一个森林。当一个新的样本需要归类，它的结果不是仅仅取决于某一刻决策树的结果，而是让森林里所有的决策树进行投票，选出结果最多的那类作为输出。决策树形式如下：构建决策树构建决策树的基本思想是以信息熵为度量，构造一棵熵值下

2016-07-20 11:24:23 2535

原创深度优先搜索+动态规划——01背包类似问题

描述今天是阴历七月初五，acm队员zb的生日。zb正在和C小加、never在武汉集训。他想给这两位兄弟买点什么庆祝生日，经过调查，zb发现C小加和never都很喜欢吃西瓜，而且一吃就是一堆的那种，zb立刻下定决心买了一堆西瓜。当他准备把西瓜送给C小加和never的时候，遇到了一个难题，never和C小加不在一块住，只能把西瓜分成两堆给他们，为了对每个人都公平，他想让两堆的重量之差最小。每个西

2016-07-19 16:41:05 2424

原创初学ML笔记N0.6——聚类方法

聚类的定义聚类就是按数据的相似性，将其划分为多个类别，从而使内别内的相似度大，内别间的相似度小。它是一种无监督学习方式，即不需要先给定样本进行学习。相似度的度量方式聚类的目的就是为了将相似样本的样本分到同一个类别里。那么，首先要考虑的便是如何度量这个相似。下面给出几种常见的度量方式：闵可夫斯基距离里，当p=2时，便是我们熟知的欧氏距离，可见，它的适用范围属于能在坐标轴里描绘的点的样本集。

2016-07-14 22:05:35 1626

原创初学ML笔记NO.5——关于熵

注：这篇笔记仅仅记录关于熵的一些知识点备忘。对于最大熵模型的使用，有待做进一步了解。熵的定义一个随机变量X，其取值为{x1,x2,x3…xk}，则我们定义其信息量为：将p(x=xi)写为通式，则得到熵的数学定义：熵是随机变量不确定性的度量，不确定性越大，熵越大；当随机变量退化为定值（即概率为1），熵就变为0了。注：均匀分布是“最不确定”的分布，因为我们没有任何信息时，一般都会把所有情况作为等可

2016-07-14 19:27:25 654

转载基于贪心算法的几类区间覆盖问题

（1）区间完全覆盖问题问题描述：给定一个长度为m的区间，再给出n条线段的起点和终点（注意这里是闭区间），求最少使用多少条线段可以将整个区间完全覆盖样例：区间长度8，可选的覆盖线段[2,6],[1,4],[3,6],[3,7],[6,8],[2,4],[3,5]解题过程:1将每一个区间按照左端点递增顺序排列，拍完序后为[1,4]，[2,4]

2016-07-13 11:07:38 484

原创贪心算法——另一种找最大值情况

寻找最大数（三）时间限制：1000 ms | 内存限制：65535 KB 难度：2 描述给出一个整数N，每次可以移动2个相邻数位上的数字，最多移动K次，得到一个新的整数。求这个新的整数的最大值是多少。输入多组测试数据。每组测试数据占一行，每行有两个数N和K (1 ≤ N≤ 10^18; 0 ≤ K ≤ 100). 输出每组

2016-07-11 16:00:59 1815

原创贪心算法——区间找点问题

找点时间限制：2000 ms | 内存限制：65535 KB 难度：2 描述上数学课时，老师给了LYH一些闭区间，让他取尽量少的点，使得每个闭区间内至少有一个点。但是这几天LYH太忙了，你们帮帮他吗？输入多组测试数据。每组数据先输入一个N，表示有N个闭区间（N≤100)。接下来N行，每行输入两个数a，b(0≤a≤b≤100），表示区间的

2016-07-11 15:52:13 1166

原创初学ML笔记N0.4——梯度下降的优化

关于优化，有两个方向可以考虑。第一个方向是关于学习率的优化。在迭代过程中，学习率一直是保持不变的。那么，能否在迭代过程中不断修正学习率，加快收敛速度呢？第二个方向是关于收敛方向。一般来说我们是直接选择负梯度方向进行收敛，（考虑一维变量的简单情形，也就是用一阶导做了一个线性方向的下降）。如果我们不选择负梯度方向，而选择与其有一定夹角的方向，收敛速度又会怎么变呢？优化学习率梯度下降公式：在以上公

2016-07-11 14:47:54 902

原创初学ML笔记N0.3——凸优化、拉格朗日对偶

凸函数定义凸优化，即指的是对凸函数的一类优化问题。所以，首先，应该明白什么是凸函数。在同济教材里，判断某个点处的凹凸性，用的是二阶导数的正负号来判断。小于0，是凸的；大于0，是凹的。但是，国外的凹凸性定义跟我们是相反的，这点得注意。以下讨论，我们按国外的定义来。按数学定义，凸函数定义为：图里的表示方式有点特别。但是我们把 θx+(1-θ)y 化简为 θ(x-y)+ y 后，把 (x-y)

2016-07-09 21:36:44 4075

原创贪心算法——寻找剩余最大数

描述请在整数 n 中删除m个数字, 使得余下的数字按原次序组成的新数最大，比如当n=92081346718538，m=10时，则新的最大数是9888 输入第一行输入一个正整数T，表示有T组测试数据每组测试数据占一行，每行有两个数n,m（n可能是一个很大的整数，但其位数不超过100位，并且保证数据首位非0，m小于整数n的位数）输出

2016-07-03 16:08:30 4086

wy的点滴