自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 爬虫小记:利用cookies跳过登陆验证码

在爬取某些网页时,登陆界面时经常遇到的一个坎,而现在大多数的网站在登陆时都会要求用户填写验证码。当然,我们可以设计一套机器学习的算法去破解验证码,然而,验证码的形式多种多样,稍微变一下(有些甚至是手机短信验证),整套算法可能就完全无效了,所以去强行破解验证码是一个吃力不讨好的活。本文会以[知乎网站为例,利用python中的request模块进行的一个模拟登陆。

2017-08-28 14:43:25 12485 2

原创 主成分分析(PCA)和基于核函数的主成分分析(KPCA)入门

主成分分析是在做特征筛选时的重要手段,这个方法在大部分的书中都只是介绍了步骤方法,并没有从头到尾把这个事情给说清楚。本文的目的是把PCA和KPCA给说清楚。主要参考了YouTube上李政轩的Principal Component Analysis and Kernel Principal Component Analysis这个视频(强烈推荐看一下)。

2017-08-23 19:59:25 45769 24

原创 利用回溯法解决1-9之间添加"+"或"-"或""使得运算结果为100的问题

编写一个在1,2,…,9(顺序不能变)数字之间插入+或-或什么都不插入,使得计算结果总是100的程序,并输出所有的可能性。例如:1 + 2 + 34 – 5 + 67 – 8 + 9 = 100。

2017-08-23 12:48:17 5659

原创 基于哈希表的索引堆变形(Hackerrank: QHEAP1)

此题来自于Hackerrank中的QHEAP1问题,考查了对堆结构的充分理解。成功完成此题,对最大堆或者最小堆的基本操作实现就没什么太大问题了。

2017-08-19 21:25:23 612

原创 利用随机森林对特征重要性进行评估

随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。

2017-08-18 16:22:48 167195 94

原创 pip install时发生raise ReadTimeoutError(self._pool, None, 'Read timed out.')的解决方案

问题描述在windows下,python在安装一些包的时候,常常会碰到time out的情况,如下图所示。不管再重试几次都是如此,这时候该怎么办呢? 解决方案方案一:更换安装源(推荐使用豆瓣源)pip install -i https://pypi.douban.com/simple <需要安装的包>比如:pip install -i https://pypi.douban.com/sim

2017-08-16 21:11:28 20221 1

原创 逻辑回归(logistic regression)的本质——极大似然估计

逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的。我会争取在本文中尽可能简明地展现逻辑回归(logistic regression)的整个推导过程。

2017-08-14 19:36:24 105982 31

原创 LeetCode547. Friends Circles 利用union find | bfs | dfs三种方法解决

问题来源此题来源于LeetCode547. Friend Circles,主要运用了并查集(union find)、广度优先遍历(bfs)和深度优先遍历(bfs)三种方法解决。

2017-08-09 19:52:43 1104

原创 决策树相关知识小结

本文是一篇关于决策树方面知识的小结,不包含具体的例子(想看例子推荐文献[1]的第4章),主要总结了ID3、C4.5和CART树三者的区别,剪枝处理,连续值和缺失值的处理。

2017-08-08 14:30:10 742

原创 三门问题(Monty Hall problem)背后的贝叶斯理论

三门问题可以说有着各种版本的解释,但我看了几个版本,觉得没有把其中的条件说清楚,所以还是决定按照自己的理解记录一下这个特别有意思的问题。

2017-08-07 16:30:16 35019 4

原创 LeetCode 474. Ones and Zeroes 动态规划解法+拓展

问题来源此题来源于LeetCode 474. Ones and Zeroes 在写这篇之前,我百度了一下这道题,发现已经有很多人写过这个问题了,然而大多数只是为了答题而答题,给出了代码,很少有文字解释的,也很少有深入拓展的。因此,我这次来给出一个比较详尽的版本,并且在最后对结果进行了拓展。问题简介已知一个字符串数组,数组内的字符串都是仅由0和1组成的,现在给定m个0和n个1,试问这m个0和n个1最

2017-08-05 18:59:14 1346

原创 用多元线性回归预测网页访问量(R语言)

前言该问题来源于《机器学习:实用案例解析》中的第5章。在书中,已经对该问题给出了一种解决方案,但是我觉得写的还是太简略了一些,没有把考虑问题的整个思路给写出来,所以,在这里给出我的一些想法。问题简述我们的任务就是根据给定的数据集(TOP1000的互联网站数据)建立一个回归模型,然后根据任意给定的一组网站数据,预测出该网站的网页访问量。解决方案这里我们针对的是多元线性回归这个方法,并不是针对预测网页访

2017-08-03 22:22:48 3999 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除