中文(翻译)
1、讨论下列每项活动是否是数据挖掘任务。
![](https://i-blog.csdnimg.cn/blog_migrate/8cab1f0cfe8e9984ee019b78072dc8db.png)
答案
(a)否。 这是一种简单的数据库查询。
(b)否。这是一个会计计算,然后应用一个阈值。然而,预测一个新客户的盈利能力是数据挖掘。
(c)否。这也是简单的会计问题。
(d)否。同样,这是一个简单的数据库查询。
(e)否。由于骰子是公平的,这是一个概率计算。如果骰子是不公平的,我们需要从数据中估计出每个结果的概率就更像是数据挖掘所考虑的问题。然而,在这个特定的情况下,这个问题的解决方案是由数学家在很久之前开发的,因此,我们不会认为它是数据挖掘。
(f)是。我们会试图创建一个可以预测股票价格连续值的模型。这是一个被称为预测模型的数据挖掘领域的例子。我们可以使用回归法进行建模,尽管许多领域的研究人员已经开发了各种各样的技术来预测时间序列。
(g)是。我们将建立一个心率正常行为的模型,并在发生异常的心脏行为时发出警报。这将涉及被称为异常检测的数据挖掘领域。如果我们有正常和不正常心脏行为的例子,这也可以被视为一个分类问题。
(h)是。在这种情况下,我们将建立一个与地震活动相关的不同类型的地震波行为模型,并在观察到这些不同类型的地震活动时发出警报。这是一个被称为分类的数据挖掘领域的例子。
(i)否。这是信号处理。
2、
![](https://i-blog.csdnimg.cn/blog_migrate/9dd5bfd04799d5c70c5dfd829a8f91c7.png)
答案
①聚类可以将具有类似主题的结果分组,并以更简洁的形式呈现给用户。例如,通过报告聚类中最频繁的10个词。
②分类可以将结果分配给预先定义的类别,如 "体育"、"政治 "等。
③顺序关联分析可以检测出某些查询以很高的概率跟随某些其他查询,从而实现更有效的缓存。
④异常检测技术可以发现用户流量的异常模式。例如,某一主题突然变得更受欢迎,可以调整广告策略以利用这种发展。
3、对于如下每个数据集,解释数据的私有性是否是重要问题
![](https://i-blog.csdnimg.cn/blog_migrate/bed930e6dbfcd0223c5b58e00e30a668.png)
答案
(a)否。
(b)是。
(c)否。
(d)否。
(e)否。
英文(原文)
![](https://i-blog.csdnimg.cn/blog_migrate/d3651825be23216af75e75a3947447e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f8090a8fc168c89734cc62b253bdadc8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2edb22dec4081f50fabf24ecde094a04.png)
![](https://i-blog.csdnimg.cn/blog_migrate/babff53bfa33347a8acbeaa62f6c7e30.png)