自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

转载 数据缺失的处理方法

https://www.zhihu.com/question/26639110目前有三种处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加噪声。2. 用其他变量做预测模型来算出缺失变量。效果比1方法略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测结果无意义。如果预测结果相当准确,则又说明这个变量是没有必要加入建模的,一般情况,介于两者之间。

2017-08-29 12:29:30 1579

转载 来日方长歌曲

版权归作者所有,任何形式转载请联系作者。作者:秦歌(来自豆瓣)来源:https://music.douban.com/review/8109429/从前一直以为,来日方长是一句暧昧到极致的情话。既不失守于后方,又步步紧逼以制敌。以退为进,心机满满。是轻许的承诺又模棱两可,是挑逗的隐喻却毫无意义。来日方长,成了每段感情的临时避难所。日子真的挺长,长得倘若你再提起那个让

2017-08-25 10:35:52 898

原创 活着的意义

我们活着的意义是什么,我们努力活下去,不愿死去,我们生儿育女,我们希望自己功成名就,争取更大的话语权,为什么,为了信息的传播。这信息有遗传因子,各种利益竞争,资源获取,努力活着以及获得更好,都是为了传播遗传因子。而那些不生儿育女,或为了艺术,或宗教,或是著书立作,这些都是在传播某种思想。综上两点,人类活着的目的可能是为了信息的传播吧。

2017-08-25 09:42:39 293

原创 一些朋友的话

1. 用三层汉堡来比喻你:第一层看着挺正经,然后了解一下觉得你是假正经,接着往下看第三层是假不正经。2. 享受喜欢一个人的感觉,而且在距离的作用下,又不会破坏它,没法破坏它----不走近就破坏不了。就这样保持一定距离守望着,不会破坏,没有期许,不远不近,自然就没有好坏。3. 不喜欢被不待见的人懂,也不喜欢被待见的人不懂装懂,喜欢被待见的人懂,又怕被喜欢的人懂了又嫌弃。

2017-08-25 09:37:03 211

原创 关于会议

会议应该是在讨论问题,而不是各持己见的辩论自己的说法是正确的,从而证明自我的高明,人们一旦有这种自我的念头出现,便开始做一些无用功,来维护自我这个形象,而不去追求事实的真相了。    讨论问题的解决方法,这个过程应该放下自我,包括自己的信仰,自己信仰的理论体系,这些都是过去的知识,尤其在社会科学中,很多学说,只是对本质的一种大概率准确的描述。本质就在那里,我们都可以用自己的方法去发现它,一定要

2017-08-25 09:30:02 196

原创 一些博客

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

2017-08-23 17:42:25 217

转载 转:数学之美番外篇:平凡而又神奇的贝叶斯方法

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史     1.1 一个例子:自然语言的二义性     1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀

2017-08-22 10:18:30 414

转载 通俗解释卡尔曼滤波

假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处省略若干数学公式),你可以得到一个“最优”的权重。接下来,重点来了:假设你只有一个传感器,但是你

2017-08-16 09:06:25 267

原创 更新scikit-learn

conda update scikit-learn

2017-08-15 14:11:47 520

原创 数据部分

1. 样本在时间轴上的采样频率,交易数据和市值数据可以是周度,而基本面季度频率。2. 标签设定,预测未来一周,一月,一季,半年或是一年。其准确率,可以表明对应数据的作用时间。如,基本面的作用时间显然比交易数据作用时间长。3. 与标签相关的数据考虑到的全收集,考虑到频度的一致性,以及研究对象的全覆盖,目前比较全的是交易和市值,基本面的财务。4. 对于研究对象未完全覆盖的数据,也可收集,挖

2017-08-14 13:25:41 259

转载 机器学习中的偏差,方差,训练误差,测试误差相关

转:http://blog.csdn.net/mosbest/article/details/51477833https://www.zhihu.com/question/27068705

2017-08-14 11:25:20 4255

转载 机器学习:更多的数据总是优于更好的算法吗?

转:http://www.csdn.net/article/2015-06-18/2825003【编者按】在机器学习中,更多的数据总是比更好的算法好吗?对于Quora上的这个问题,Netflix公司工程总监Xavier Amatriain认为,很多时候增加更多的样本到训练集并不会提高模型的性能,而如果没有合理的方法,数据就会成为噪音。他通过Netflix的实践经验推导出最终的结论:我们

2017-08-11 10:45:33 457

原创 用Python获取命令行输出 将屏幕输出的log保存文件中

# -*- coding:utf-8 -*-import oscommand = 'ping www.baidu.com '#可以直接在命令行中执行的命令r = os.popen(command)info = r.readlines()for line in info: line = line.strip('\r\n') if isinstance(line, unic

2017-08-05 16:52:28 13307

VIBE的几篇文章B哥的背景建模运动目标检测大作

VIBE相关文章,2011CVPR运动目标检测综述文章中推崇的方法,该综述文献实验证明该方法是目前最好的背景建模方法。

2012-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除