- 博客(12)
- 收藏
- 关注
原创 爬虫小记:利用cookies跳过登陆验证码
在爬取某些网页时,登陆界面时经常遇到的一个坎,而现在大多数的网站在登陆时都会要求用户填写验证码。当然,我们可以设计一套机器学习的算法去破解验证码,然而,验证码的形式多种多样,稍微变一下(有些甚至是手机短信验证),整套算法可能就完全无效了,所以去强行破解验证码是一个吃力不讨好的活。本文会以[知乎网站为例,利用python中的request模块进行的一个模拟登陆。
2017-08-28 14:43:25 12485 2
原创 主成分分析(PCA)和基于核函数的主成分分析(KPCA)入门
主成分分析是在做特征筛选时的重要手段,这个方法在大部分的书中都只是介绍了步骤方法,并没有从头到尾把这个事情给说清楚。本文的目的是把PCA和KPCA给说清楚。主要参考了YouTube上李政轩的Principal Component Analysis and Kernel Principal Component Analysis这个视频(强烈推荐看一下)。
2017-08-23 19:59:25 45769 24
原创 利用回溯法解决1-9之间添加"+"或"-"或""使得运算结果为100的问题
编写一个在1,2,…,9(顺序不能变)数字之间插入+或-或什么都不插入,使得计算结果总是100的程序,并输出所有的可能性。例如:1 + 2 + 34 – 5 + 67 – 8 + 9 = 100。
2017-08-23 12:48:17 5659
原创 基于哈希表的索引堆变形(Hackerrank: QHEAP1)
此题来自于Hackerrank中的QHEAP1问题,考查了对堆结构的充分理解。成功完成此题,对最大堆或者最小堆的基本操作实现就没什么太大问题了。
2017-08-19 21:25:23 612
原创 利用随机森林对特征重要性进行评估
随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。
2017-08-18 16:22:48 167195 94
原创 pip install时发生raise ReadTimeoutError(self._pool, None, 'Read timed out.')的解决方案
问题描述在windows下,python在安装一些包的时候,常常会碰到time out的情况,如下图所示。不管再重试几次都是如此,这时候该怎么办呢? 解决方案方案一:更换安装源(推荐使用豆瓣源)pip install -i https://pypi.douban.com/simple <需要安装的包>比如:pip install -i https://pypi.douban.com/sim
2017-08-16 21:11:28 20221 1
原创 逻辑回归(logistic regression)的本质——极大似然估计
逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的。我会争取在本文中尽可能简明地展现逻辑回归(logistic regression)的整个推导过程。
2017-08-14 19:36:24 105982 31
原创 LeetCode547. Friends Circles 利用union find | bfs | dfs三种方法解决
问题来源此题来源于LeetCode547. Friend Circles,主要运用了并查集(union find)、广度优先遍历(bfs)和深度优先遍历(bfs)三种方法解决。
2017-08-09 19:52:43 1104
原创 决策树相关知识小结
本文是一篇关于决策树方面知识的小结,不包含具体的例子(想看例子推荐文献[1]的第4章),主要总结了ID3、C4.5和CART树三者的区别,剪枝处理,连续值和缺失值的处理。
2017-08-08 14:30:10 742
原创 三门问题(Monty Hall problem)背后的贝叶斯理论
三门问题可以说有着各种版本的解释,但我看了几个版本,觉得没有把其中的条件说清楚,所以还是决定按照自己的理解记录一下这个特别有意思的问题。
2017-08-07 16:30:16 35019 4
原创 LeetCode 474. Ones and Zeroes 动态规划解法+拓展
问题来源此题来源于LeetCode 474. Ones and Zeroes 在写这篇之前,我百度了一下这道题,发现已经有很多人写过这个问题了,然而大多数只是为了答题而答题,给出了代码,很少有文字解释的,也很少有深入拓展的。因此,我这次来给出一个比较详尽的版本,并且在最后对结果进行了拓展。问题简介已知一个字符串数组,数组内的字符串都是仅由0和1组成的,现在给定m个0和n个1,试问这m个0和n个1最
2017-08-05 18:59:14 1346
原创 用多元线性回归预测网页访问量(R语言)
前言该问题来源于《机器学习:实用案例解析》中的第5章。在书中,已经对该问题给出了一种解决方案,但是我觉得写的还是太简略了一些,没有把考虑问题的整个思路给写出来,所以,在这里给出我的一些想法。问题简述我们的任务就是根据给定的数据集(TOP1000的互联网站数据)建立一个回归模型,然后根据任意给定的一组网站数据,预测出该网站的网页访问量。解决方案这里我们针对的是多元线性回归这个方法,并不是针对预测网页访
2017-08-03 22:22:48 3999 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人