- 博客(13)
- 资源 (1)
- 收藏
- 关注
转载 数据缺失的处理方法
https://www.zhihu.com/question/26639110目前有三种处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加噪声。2. 用其他变量做预测模型来算出缺失变量。效果比1方法略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测结果无意义。如果预测结果相当准确,则又说明这个变量是没有必要加入建模的,一般情况,介于两者之间。
2017-08-29 12:29:30 1579
转载 来日方长歌曲
版权归作者所有,任何形式转载请联系作者。作者:秦歌(来自豆瓣)来源:https://music.douban.com/review/8109429/从前一直以为,来日方长是一句暧昧到极致的情话。既不失守于后方,又步步紧逼以制敌。以退为进,心机满满。是轻许的承诺又模棱两可,是挑逗的隐喻却毫无意义。来日方长,成了每段感情的临时避难所。日子真的挺长,长得倘若你再提起那个让
2017-08-25 10:35:52 898
原创 活着的意义
我们活着的意义是什么,我们努力活下去,不愿死去,我们生儿育女,我们希望自己功成名就,争取更大的话语权,为什么,为了信息的传播。这信息有遗传因子,各种利益竞争,资源获取,努力活着以及获得更好,都是为了传播遗传因子。而那些不生儿育女,或为了艺术,或宗教,或是著书立作,这些都是在传播某种思想。综上两点,人类活着的目的可能是为了信息的传播吧。
2017-08-25 09:42:39 293
原创 一些朋友的话
1. 用三层汉堡来比喻你:第一层看着挺正经,然后了解一下觉得你是假正经,接着往下看第三层是假不正经。2. 享受喜欢一个人的感觉,而且在距离的作用下,又不会破坏它,没法破坏它----不走近就破坏不了。就这样保持一定距离守望着,不会破坏,没有期许,不远不近,自然就没有好坏。3. 不喜欢被不待见的人懂,也不喜欢被待见的人不懂装懂,喜欢被待见的人懂,又怕被喜欢的人懂了又嫌弃。
2017-08-25 09:37:03 211
原创 关于会议
会议应该是在讨论问题,而不是各持己见的辩论自己的说法是正确的,从而证明自我的高明,人们一旦有这种自我的念头出现,便开始做一些无用功,来维护自我这个形象,而不去追求事实的真相了。 讨论问题的解决方法,这个过程应该放下自我,包括自己的信仰,自己信仰的理论体系,这些都是过去的知识,尤其在社会科学中,很多学说,只是对本质的一种大概率准确的描述。本质就在那里,我们都可以用自己的方法去发现它,一定要
2017-08-25 09:30:02 196
转载 转:数学之美番外篇:平凡而又神奇的贝叶斯方法
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀
2017-08-22 10:18:30 414
转载 通俗解释卡尔曼滤波
假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处省略若干数学公式),你可以得到一个“最优”的权重。接下来,重点来了:假设你只有一个传感器,但是你
2017-08-16 09:06:25 267
原创 数据部分
1. 样本在时间轴上的采样频率,交易数据和市值数据可以是周度,而基本面季度频率。2. 标签设定,预测未来一周,一月,一季,半年或是一年。其准确率,可以表明对应数据的作用时间。如,基本面的作用时间显然比交易数据作用时间长。3. 与标签相关的数据考虑到的全收集,考虑到频度的一致性,以及研究对象的全覆盖,目前比较全的是交易和市值,基本面的财务。4. 对于研究对象未完全覆盖的数据,也可收集,挖
2017-08-14 13:25:41 259
转载 机器学习中的偏差,方差,训练误差,测试误差相关
转:http://blog.csdn.net/mosbest/article/details/51477833https://www.zhihu.com/question/27068705
2017-08-14 11:25:20 4255
转载 机器学习:更多的数据总是优于更好的算法吗?
转:http://www.csdn.net/article/2015-06-18/2825003【编者按】在机器学习中,更多的数据总是比更好的算法好吗?对于Quora上的这个问题,Netflix公司工程总监Xavier Amatriain认为,很多时候增加更多的样本到训练集并不会提高模型的性能,而如果没有合理的方法,数据就会成为噪音。他通过Netflix的实践经验推导出最终的结论:我们
2017-08-11 10:45:33 457
原创 用Python获取命令行输出 将屏幕输出的log保存文件中
# -*- coding:utf-8 -*-import oscommand = 'ping www.baidu.com '#可以直接在命令行中执行的命令r = os.popen(command)info = r.readlines()for line in info: line = line.strip('\r\n') if isinstance(line, unic
2017-08-05 16:52:28 13307
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人