机智的ensemble

1 引言 本文主要结合了李宏毅的机器学习课程之Ensemble和周志华的《机器学习》西瓜书两者的说法,对ensemble这一竞赛利器做了总结。 Ensemble主要可以分为bagging和boosting两种方法。其中,bagging适用于基模型复杂度比较高的情况(如树模型),其目的是为了减小...

2018-03-04 22:45:33

阅读数 262

评论数 0

气象数据领航无人飞行器线路优化大赛解决方案(3rd place)

1 队伍介绍 队伍名称:酒后写诗 队伍成员:陈权、林望黎、黄章炜 队伍名次:3 / 1646 2 问题简介 这个问题说起来其实挺简单(但实现起来困难重重),就是提供了气象局得到的10个模型的预测数据(准确率为90%~95%之间),然后让我们用这些预测数据去预测每个坐标在每个时刻的天气...

2018-03-03 18:38:20

阅读数 796

评论数 2

python函数在传参的时候,到底在传些什么?

python参数传递的原理解析和注意事项

2018-01-19 10:18:07

阅读数 656

评论数 0

利用哈希表和dfs解决LeetCode 399. Evaluate Division

问题简介 给定一些由变量组成的等式组,然后根据这些等式推算出所闻的等式的结果,如果无法推算,则返回-1.0。 比如: 给定等式组 a / b = 2.0, b / c = 3.0 求出 a / c = ?, b / a = ?, a / e = ?, a / a = ?, x / x =...

2018-01-07 20:48:58

阅读数 161

评论数 0

从LeetCode 210. Course Schedule II 了解拓扑排序

问题简述 给定n节课,每节课按0~n-1编号。 在修某些课的时候需要有其它课的基础,必须先上先修课。现在用pair的形式来表示要先修的课,比如 [ [0,1], [1,2] ] 就表示在修课程1之前必须先修课程0,修课程2之前必须修课程1。现在需要给出一个修课的顺序,使得按照该顺序修课可以顺利...

2018-01-05 18:49:23

阅读数 424

评论数 0

利用bds和dfs解决 LeetCode 107. Binary Tree Level Order Traversal II

问题简述给定一棵二叉树,返回该二叉树自底向上遍历的结点值(即从左到右,自底向上) 比如给定一颗二叉树 [3,9,20,null,null,15,7] 3 / \ 9 20 / \ 15 7返回的结果为[ [15,7], [9,20], [3] ]...

2017-12-23 20:30:26

阅读数 135

评论数 0

利用二分法解决 leetcode 378. Kth Smallest Element in a Sorted Matrix

问题简述给定一个 n×nn \times n 的矩阵,矩阵中每行和每列的元素都按升序排列。给定一个 k(k∈[1,n2])k (k \in [1, n^2]), 求再整个矩阵中按从小到大排序为 kk 的元素。 例如:matrix = [ [ 1, 5, 9], [10, 11, ...

2017-12-20 15:50:13

阅读数 154

评论数 0

py2中存储的pickle和py3中pickle无法读取的兼容性问题解决方案

问题描述在py2.7当中,用以下语句将变量存储到pickle当中with open('../dataset/m_7800/rf_preds.pickle', 'wb') as f: pickle.dump(rf_preds, f)这个时候,用py3.6中的pickle取获取存储好的变量wi...

2017-11-05 14:31:14

阅读数 2452

评论数 0

python的普通方法、类方法和静态方法

本文主要讲述了python类中的三类常用方法,普通方法、类方法和静态方法。 普通方法会将实例传入方法当中(通常用self表示),类方法会将类传入方法当中(通常用cls表示),静态方法中传入与类无关的变量。

2017-09-16 21:23:16

阅读数 249

评论数 0

从拉格朗日乘子法到SVM

本文主要是讲了如何构建SVM的模型,并利用KKT条件构造其对偶型,从而求解问题,并讲述了SVM的硬间隔,软间隔和核函数三个境界。主要参考了周志华的《机器学习》,并在其中补充了自己的想法。由于内容较多,所以很多细节都省略掉了,只留下了整体的框架,该说的东西应该都说了。

2017-09-08 08:52:30

阅读数 1958

评论数 1

神经网络中BP(back propagation)到底在干些什么

想要理解神经网络的工作原理,反向传播(BP)是必须搞懂的东西。BP其实并不难理解,说白了就是用链式法则(chain rule)算算算。本文试图以某个神经网络为例,尽可能直观,详细,明了地说明反向传播的整个过程。

2017-09-03 15:09:55

阅读数 871

评论数 0

爬虫小记:利用cookies跳过登陆验证码

在爬取某些网页时,登陆界面时经常遇到的一个坎,而现在大多数的网站在登陆时都会要求用户填写验证码。当然,我们可以设计一套机器学习的算法去破解验证码,然而,验证码的形式多种多样,稍微变一下(有些甚至是手机短信验证),整套算法可能就完全无效了,所以去强行破解验证码是一个吃力不讨好的活。本文会以[知乎网站...

2017-08-28 14:43:25

阅读数 6573

评论数 1

主成分分析(PCA)和基于核函数的主成分分析(KPCA)入门

主成分分析是在做特征筛选时的重要手段,这个方法在大部分的书中都只是介绍了步骤方法,并没有从头到尾把这个事情给说清楚。本文的目的是把PCA和KPCA给说清楚。主要参考了YouTube上李政轩的Principal Component Analysis and Kernel Principal Comp...

2017-08-23 19:59:25

阅读数 20336

评论数 11

利用回溯法解决1-9之间添加"+"或"-"或""使得运算结果为100的问题

编写一个在1,2,…,9(顺序不能变)数字之间插入+或-或什么都不插入,使得计算结果总是100的程序,并输出所有的可能性。例如:1 + 2 + 34 – 5 + 67 – 8 + 9 = 100。

2017-08-23 12:48:17

阅读数 1104

评论数 0

基于哈希表的索引堆变形(Hackerrank: QHEAP1)

此题来自于Hackerrank中的QHEAP1问题,考查了对堆结构的充分理解。成功完成此题,对最大堆或者最小堆的基本操作实现就没什么太大问题了。

2017-08-19 21:25:23

阅读数 233

评论数 0

利用随机森林对特征重要性进行评估

随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。

2017-08-18 16:22:48

阅读数 24783

评论数 10

pip install时发生raise ReadTimeoutError(self._pool, None, 'Read timed out.')的解决方案

问题描述在windows下,python在安装一些包的时候,常常会碰到time out的情况,如下图所示。不管再重试几次都是如此,这时候该怎么办呢? 解决方案 方案一:更换安装源(推荐使用豆瓣源) pip install -i https://pypi.douban.com/simple <...

2017-08-16 21:11:28

阅读数 4651

评论数 1

逻辑回归(logistic regression)的本质——极大似然估计

逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的。我会争取在本文中尽可能简明地展现逻辑回归(logistic regression)的整个推导过程。

2017-08-14 19:36:24

阅读数 63813

评论数 13

LeetCode547. Friends Circles 利用union find | bfs | dfs三种方法解决

问题来源此题来源于LeetCode547. Friend Circles,主要运用了并查集(union find)、广度优先遍历(bfs)和深度优先遍历(bfs)三种方法解决。

2017-08-09 19:52:43

阅读数 590

评论数 0

决策树相关知识小结

本文是一篇关于决策树方面知识的小结,不包含具体的例子(想看例子推荐文献[1]的第4章),主要总结了ID3、C4.5和CART树三者的区别,剪枝处理,连续值和缺失值的处理。

2017-08-08 14:30:10

阅读数 331

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭