2017年08月_夏天7788

12月 11月 08月 07月 06月 05月 04月 03月 02月 01月

转载数据缺失的处理方法

https://www.zhihu.com/question/26639110目前有三种处理方法：1. 用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加噪声。2. 用其他变量做预测模型来算出缺失变量。效果比1方法略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测结果无意义。如果预测结果相当准确，则又说明这个变量是没有必要加入建模的，一般情况，介于两者之间。

2017-08-29 12:29:30 1579

转载来日方长歌曲

版权归作者所有，任何形式转载请联系作者。作者：秦歌（来自豆瓣）来源：https://music.douban.com/review/8109429/从前一直以为，来日方长是一句暧昧到极致的情话。既不失守于后方，又步步紧逼以制敌。以退为进，心机满满。是轻许的承诺又模棱两可，是挑逗的隐喻却毫无意义。来日方长，成了每段感情的临时避难所。日子真的挺长，长得倘若你再提起那个让

2017-08-25 10:35:52 898

原创活着的意义

我们活着的意义是什么，我们努力活下去，不愿死去，我们生儿育女，我们希望自己功成名就，争取更大的话语权，为什么，为了信息的传播。这信息有遗传因子，各种利益竞争，资源获取，努力活着以及获得更好，都是为了传播遗传因子。而那些不生儿育女，或为了艺术，或宗教，或是著书立作，这些都是在传播某种思想。综上两点，人类活着的目的可能是为了信息的传播吧。

2017-08-25 09:42:39 293

原创一些朋友的话

1. 用三层汉堡来比喻你：第一层看着挺正经，然后了解一下觉得你是假正经，接着往下看第三层是假不正经。2. 享受喜欢一个人的感觉，而且在距离的作用下，又不会破坏它，没法破坏它----不走近就破坏不了。就这样保持一定距离守望着，不会破坏，没有期许，不远不近，自然就没有好坏。3. 不喜欢被不待见的人懂，也不喜欢被待见的人不懂装懂，喜欢被待见的人懂，又怕被喜欢的人懂了又嫌弃。

2017-08-25 09:37:03 211

原创关于会议

会议应该是在讨论问题，而不是各持己见的辩论自己的说法是正确的，从而证明自我的高明，人们一旦有这种自我的念头出现，便开始做一些无用功，来维护自我这个形象，而不去追求事实的真相了。讨论问题的解决方法，这个过程应该放下自我，包括自己的信仰，自己信仰的理论体系，这些都是过去的知识，尤其在社会科学中，很多学说，只是对本质的一种大概率准确的描述。本质就在那里，我们都可以用自己的方法去发现它，一定要

2017-08-25 09:30:02 196

原创一些博客

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

2017-08-23 17:42:25 217

转载转：数学之美番外篇：平凡而又神奇的贝叶斯方法

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀

2017-08-22 10:18:30 414

转载通俗解释卡尔曼滤波

假设你有两个传感器，测的是同一个信号。可是它们每次的读数都不太一样，怎么办？取平均。再假设你知道其中贵的那个传感器应该准一些，便宜的那个应该差一些。那有比取平均更好的办法吗？加权平均。怎么加权？假设两个传感器的误差都符合正态分布，假设你知道这两个正态分布的方差，用这两个方差值，（此处省略若干数学公式），你可以得到一个“最优”的权重。接下来，重点来了：假设你只有一个传感器，但是你

2017-08-16 09:06:25 267

原创更新scikit-learn

conda update scikit-learn

2017-08-15 14:11:47 520

原创数据部分

1. 样本在时间轴上的采样频率，交易数据和市值数据可以是周度，而基本面季度频率。2. 标签设定，预测未来一周，一月，一季，半年或是一年。其准确率，可以表明对应数据的作用时间。如，基本面的作用时间显然比交易数据作用时间长。3. 与标签相关的数据考虑到的全收集，考虑到频度的一致性，以及研究对象的全覆盖，目前比较全的是交易和市值，基本面的财务。4. 对于研究对象未完全覆盖的数据，也可收集，挖

2017-08-14 13:25:41 259

转载机器学习中的偏差，方差，训练误差，测试误差相关

转：http://blog.csdn.net/mosbest/article/details/51477833https://www.zhihu.com/question/27068705

2017-08-14 11:25:20 4255

转载机器学习：更多的数据总是优于更好的算法吗？

转：http://www.csdn.net/article/2015-06-18/2825003【编者按】在机器学习中，更多的数据总是比更好的算法好吗?对于Quora上的这个问题，Netflix公司工程总监Xavier Amatriain认为，很多时候增加更多的样本到训练集并不会提高模型的性能，而如果没有合理的方法，数据就会成为噪音。他通过Netflix的实践经验推导出最终的结论：我们

2017-08-11 10:45:33 457

原创用Python获取命令行输出将屏幕输出的log保存文件中

# -*- coding:utf-8 -*-import oscommand = 'ping www.baidu.com '#可以直接在命令行中执行的命令r = os.popen(command)info = r.readlines()for line in info: line = line.strip('\r\n') if isinstance(line, unic

2017-08-05 16:52:28 13307

VIBE的几篇文章B哥的背景建模运动目标检测大作

VIBE相关文章，2011CVPR运动目标检测综述文章中推崇的方法，该综述文献实验证明该方法是目前最好的背景建模方法。

2012-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人