一周看书的小问题or心得or猜测_一周看书有什么变化-CSDN博客

本文链接：https://blog.csdn.net/yuan5531750/article/details/24244081

1，数据挖掘中往往需要使用很多统计学数学知识。那么在实际挖掘前的数据处理，数据清理的方式有很多种。我们是采用枚举的手法去处理数据，让模糊，随机，有噪声，不完全的数据先变成干净的嘛？比如说：“数据缺失可以忽略，可以用均值，中值，可以用决策树，贝叶斯逻辑推理数据”。那么如何批判数据处理的优劣？换句话说什么时候用什么方法来预处理数据呢？而数据清理也需要使用分布式系统，这就等于预处理是一次机器学习的过程？

2，在书中关于协方差的例子中，联系了实际把例子扩展一下。如果在股票市场，已知某几只股票已经涨停了（无法购入）。我希望通过枚举同类型的股票与涨停的股票之间的协方差，来推断有潜力的股票。那么这些股票之间就会构成一幅稠密图。如果图很大的时候，我们往往会用分布式系统，把图分割成若干部分，再交由不同的子系统去运算。但是由于图在运算前已被分割，即有部分边已经丢失。那么如何处理分割导致丢失的边才能保证结果的准确性？

3，在如今大数据的时代，数据量即大，且更新很快。如何能保证在短时间内，把已挖掘的数据信息，进行更新，同步，是不是现在数据挖掘需要解决的问题？

4，如何评判使用数学规约的效果？

5，对于基于距离的方法，规范化可以帮助防止具有较大初试值域的属性与较小的属性相比权重过大。为什么过大不好呢？

6，对于大传感器数据挖掘在小规模的物联网---智能家居中的看法：

机器学习收集了足够多的信息来预测行为的前提下，奇异点判断就可能成为智能家居的安全性的关键。如果统计信息并且预测行为，控制好误差，就成为了关键。在这里，特征化，区分，关联，分类/预测，聚类可能都需要用上。

如问题三，传感器数据在更新很快这一个方面尤为突出。因为，拿杯子作为例子，杯子里面可能满水，可能没水，也可能有一部分水，这就说明拿杯子就一定是去打水，还有可能是先倒干净杯子里的水再打水，也有可能是去洗杯子再打水，更有可能是满水，一边喝一边去打水。由于目前科技没有到达一定的程度，或者说一些特殊的传感器（如气味，液体判别）并没有普及。

综上：更大的要求是，通过预测行为来做到智能，但是传感器的传输的信息是实时更新的，这就对数据挖掘的效率提出了一个更高的要求，除了要准确，还需要快速的在一定时间间隔内，预测出准确的行为。