网络安全和机器学习：准确的特征可通向成功

最新推荐文章于 2024-05-22 16:15:35 发布

张某人ER

最新推荐文章于 2024-05-22 16:15:35 发布

阅读量3.7k

点赞数

分类专栏：机器学习文章标签：机器学习网络安全

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

网络安全和机器学习：准确的特征可通向成功

原文地址：http://www.computerworld.com/article/2947617/data-analytics/cybersecurity-and-machine-learning-how-selecting-the-right-features-can-lead-to-success.html

译者：张某人ER

译者地址：http://blog.csdn.net/xinxing__8185

我们的周围遍布大数据。但是，还是经常听说，许多数据科学家和研究员需要更多的数据，以支持进行中的研究分析。这怎么可能，这种得到更多数据的急切心理又从何而来？

通常，数据科学家需要很多数据来训练复杂的机器学习模型。同样的情形也出现（适用）于网络安全领域的机器学习算法。为了可以在许多不同目标，恶意行为，恶意软件感染中，建立分类器并予以识别。由此而论，获取大量数据的急切心理来自对充足的正样本的需要----例如，来自真实威胁和恶意软件感染的数据-----这些数据可以用来训练机器学习分类器。

这种对大量数据的需求合理吗？这依赖于机器学习试图要解决的问题。但是，训练一个机器学习模型需要的确切数据量，通常和特征的选取有关。

特征是信息的集合，该集合可以用于表征给定数据样本的特征（特性）。可使用的特征数量有时并不直接受控制，因为它来自复杂的数据流水线，且不易修正。又如在其他的情形下，从现存的数据样本中获取新特征，相对容易；经过合适的预处理的数据也可建立更有趣的新特征。这个过程通常命名为“特征工程”；

机器学习的书籍中，会强调准确选择特征对训练机器学习算法的重要性。这是个重要的考量，因为无尽数量的训练数据，如果配以错误的特征几何，将会产生一个不可信赖的模型。

当机器学习算法的特征选择被用于网络流量数据，以识别网络安全威胁时，（以上情形）尤为如此。对于一些模型，了解网络流使用的协议-----例如TCP或UDP----可能有相关性，尽管在其他情形中是毫无意义的特征。

在特征抽取中应用自然语言处理技术，可能是正确的选择，例如模型中包含HTTP数据时，解析URL域。但是，这可能并不合适，例如模型主要研究聚合信息或关于网络流量像客户端/服务器间的交互时。

一般而言，可用的特征与解析给定网络协议能力相关。这是因为，缺少解析能力，从原始网络流量数据中可抽取出的有用信息的总量相当有限。

以上的论述，可能会产生一个错误的感觉，即使用一个特别大的特征集，会解决任何的机器学习问题。

实际上，现有的机器学习库提供易于使用的方法可以获取不同的特征，并被用于训练一些算法。这些工具试图使选择准确的特征变得自动化，但在实际中，不应消除对被测试的特征仔细的审查。

被选中用于解决机器学习问题的特征质量远比利用的特征数量重要。这个重要的观点，可以看做对著名的维数灾难的简单表述。(R. Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, Princeton, N.J., 1961).

已经有许多关于这个主题的文章，同时存在几个不同的定义。一个相对合理准确，又有点神秘的陈述是，当维数增加时，所需空间量快速增长，可获取的数据便变得稀疏。

解释这一表述不同的方式是，当特征维数增长时，不同样本间的距离，在特征空间中很快会收敛于同一值。

这是很直观的，因为数据的稀疏性会使不同的数据样本趋向于特征空间的角落（空间中边缘，相对的为空间的中心部分）。这种现象的一个图形（直观）表示，可以点击

http://simplystatistics.org/2014/10/24/an-interactive-visualization-to-teach-about-the-curse-of-dimensionality/

正如许多机器学习算法依赖于一种或多种形式的距离定义（例如Euclidean），随着这些距离定义变得无意义，这些算法会迅速的失去预测性的能力。

对于特定数量的训练数据，增长（过多）的特征数量将会造成过拟合问题。例如，分类器在训练集上有很好的表现，却在预测数据上表现的预测性能很差。

这这种情况下，一种可能的方案是增加训练数据量。但正如我们上面指出的，对于网络流分类器，这常常是不可能的或代价太高、异常耗时。

一种可能有些的方式包括合理的特征选择，识别特征间的关系，使用一些技术如主成分分析（PCA），来降低特征的维度。但新的降维的特征集，较原来的特征集缺少直观性。

正如我们在上一篇博文中讨论的（http://www.computerworld.com/article/2908507/cybersecurity-data-science-and-machine-learning-is-all-data-equal.html），限制正样本的数量，在训练相关网络安全的机器学习模型中，至关重要。合理特征选择同样重要，同时也在构建高泛化能力和高预测性能的分类器中扮演着重要角色。