半导体制造工艺的生产过程中,用大量传感器监控整体生产过程是否合格,以保证生产的产品能够达标。如果我们将每种类型的信号视为一个特征,则可以应用特征选择来识别最相关的信号,工程师可以使用这些信号快速地确定导致出现不合格产品的关键因素,这将有助于提高工艺产量,并降低单位生产成本。研究这过程中数据的预处理及预测模型是十分必要的。
对于问题一,未处理的数据含有大量的缺失数据、空值和精度不满足要求的数据等。首先对附件中所给数据进行分析,得到各个数据的主要特征。接着依据不同类型不良数据的处理方法,结合附件中的数据,可以对不良数据进行分类,大致分为数据缺失、数据空值、数据超出范围、数据精度异常四个类型,并针对不同类型的数据缺失给出相应的处理措施。其中数据缺失分为大量数据缺失与少量数据缺失,缺失10%以上的数据,很难补充,直接将其剔除;缺失40%以下的数据,可以利用拉格朗日插值法将其进行补充;数据空值分为大量空值与少量空值,某一位点数据全部为空值的不良数据,很难根据已有数据补充,直接剔除;部分数据为空值,可以取其前后数据的平均值进行补充;进行上述四个类型的不良数据进行处理,即可得到最终的预处理结果。
对于寻找建模的关键因素,首先对附件中的数据进行分析,590个变量作为影响因素,变量个数多且变量之间存在多重相关性和耦合性,给模型的建立带来了一定的难度。首先将处理的数据进行标准化,得到整齐划一的数据,接着选择数据降维偏最小二乘回归的方法提取主要的影响因素,得到影响产品质量的主要的因素有V1 V4 V5 V9 V11 V23 V41 V42 V91 V149 V287 V322 V391 V437 V511 V589等的因素。
对于问题二,在问题一的基础上,已经得到了影响产品质量的关键因素,我们以这些变量作为不合格产品预测模型的输入,以产品合格与否作为输出来构建不合格产品预测模型,进而使用神经网络进行求解。利用提取的主要关键因素作为输入,以产品质量作出预测输出结果,建立了基于BP神经网络的产品质量预测模型。随机选取300个样本作为训练集对本模型进行训练,剩余样本作为测试集对模型进行验证。本模型精确的预测了产品质量,误差值最大不超过0.07,相对误差小于百分之7。由结果可得,该模型预测的产品质量与实际值差距很小,在误差允许的范围内满足精度的要求,且预测结果准确性高。