7 应用案例2:模式识别
除了函数拟合,神经网络还擅长解决模式识别问题。
例如,假设你想根据细胞大小、团块厚度、有丝分裂等的均匀性将肿瘤分为良性或恶性[MuAh94]。你有699个案例,你有9项数据和正确的良性或恶性分类。
与函数拟合一样,有两种方法来解决这个问题:
- 使用nprtool GUI,请参见使用神经网络模式识别工具。
- 使用命令行解决方案,请参见使用命令行函数。
通常最好从GUI开始,然后使用GUI自动生成命令行脚本。在使用任何一种方法之前,第一步是通过选择一个数据集来定义问题。下一节描述数据格式。
7.1 定义问题
要定义一个模式识别问题,将一组Q输入向量排列为矩阵中的列。然后排列另一组Q目标向量,以便它们指示分配给输入向量的类(关于静态和时间序列数据的数据格式化的详细描述,请参阅“数据结构”)。有两种方法来创建目标向量。
当只有两个类时,可以使用一种方法;将每个标量目标值设置为1或0,表示相应的输入属于哪个类。例如,你可以这样定义排异或分类问题:
inputs = [0 1 0 1; 0 0 1 1];
targets = [0 1 0 1];
或者,目标向量可以有N个元素,其中对于每个目标向量,一个元素是1,其他元素是0。这定义了一个问题,其中输入被分为N个不同的类。例如,下面几行显示了如何定义一个分类问题,该问题将一个5 × 5 × 5立方体的角分为三个类:
- 一个类中的原点(第一个输入向量)
- 在第二类中离原点(最后一个输入向量)最远的角
- 所有在第三类中的点
inputs = [0 0 0 0 5 5 5 5; 0 0 5 5 0 0 5 5; 0 5 0 5 0 5 0 5];
targets = [1 0 0 0 0 0 0 0; 0 1 1 1 1 1 1 0; 0 0 0 0 0 0 0 1];
只涉及两个类的分类问题可以用任何一种格式表示。目标可以由标量1/0元素或两元素向量组成,其中一个元素为1,另一个元素为0。
下一节将演示如何使用神经网络模式识别工具GUI nprtool来训练网络来识别模式。本例使用工具箱提供的癌症数据集。该数据集由699个九元输入向量和两元目标向量组成。每个目标向量中有两个元素,因为每个输入向量有两个类别(良性或恶性)。
7.2 使用GUI工具来做神经网络分析
(1)还是先用nnstart来打开界面。
(2) 点击模式识别工具打开神经网络模式识别工具。(也可以使用命令