制造业生产过程中多源异构数据处理方法综述

最新推荐文章于 2025-04-20 18:11:17 发布

唐名威

最新推荐文章于 2025-04-20 18:11:17 发布

阅读量1.1w

点赞数 7

文章标签：算法数据库聚类 scipy 大数据

本文链接：https://blog.csdn.net/weixin_45585364/article/details/109040261

版权

点击上方蓝字关注我们

制造业生产过程中多源异构数据处理方法综述

陈世超^1,2, 崔春雨¹, 张华³, 马戈⁴, 朱凤华¹, 商秀芹¹, 熊刚,1

1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190

2 澳门科技大学，澳门 999078

3 北京航天智造科技发展有限公司，北京 100039

4 中国工业互联网研究院，北京 100102

摘要：随着现代制造业向着自动化、信息化、智能化方向快速发展，生产过程中会产生大量的多源异构数据。对多源异构数据的有效处理和深度挖掘可为生产制造者提供更有效的生产调度、设备管理等策略，从而提高生产质量和效率。针对制造业生产过程中多源异构数据的处理方法与技术等进行系统性的综述，首先明确了制造业生产过程多源异构数据内容及分类；其次，阐述了多源异构数据处理中数据采集、数据集成及数据分析各个阶段应用的数据处理方法和技术，并分析了各种方法与技术的优缺点以及应用；最后，对生产过程中多源异构数据处理方法和技术进行总结，指出了现阶段多源异构数据处理方法及技术面临的挑战和发展趋势。

关键词：数据处理 ; 多源异构数据 ; 生产制造

金属质感分割线

论文引用格式：

陈世超,崔春雨,张华, 等. 制造业生产过程中多源异构数据处理方法综述[J]. 大数据, 2020, 6(5): 55-81.

CHEN S C, CUI C Y, ZHANG H, et al. A survey on multi-source heterogeneous data processing methods in manufacturing process[J]. Big Data Research, 2020, 6(5): 55-81.

金属质感分割线

1 引言

在全球信息技术快速发展的背景下，随着科学技术的迅猛发展和社会信息化程度的不断提高，人类社会共享的数据的数量大大增加，共享的数据的形式大大丰富。据希捷公司与国际数据公司（IDC）共同发布的《数字化世界——从边缘到核心》白皮书，全球数据圈规模将从2018年的33 ZB增至2025年的175 ZB。其中，白皮书中指出，在全球数据圈中，制造业数据所占份额最大，远远超过其他行业。同时，伴随着中国“智能制造 2025”国家战略的实施，工业制造业面临重大的变革转型，大数据成为提升制造业生产力、创造力的关键。随着智能制造的发展，自动化、信息化、智能化等技术渗透到制造业生产过程的各个环节，从工业现场的传感器、设备到制造生产过程中的各个信息系统（如制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统等），均会产生大量不同结构类型的数据。以一个典型的纺织制造车间为例，其一天的数据量将达到84 GB，而一台半导体生产机器一天的数据量甚至可以达到TB级别，这些数据包括二进制、文本、视频、音频等数据。而海量的数据中蕴含着大量有价值的信息，对这些信息的提取有利于指导人们在生产制造、设备管理和生产调度等过程中做出正确的决策，达到优化制造流程、提高效能的目的，促进制造业生产过程的全面智能化，从而提高生产质量和效率。

如图1所示，产品的制造流程包括研发设计、物料采购、生产制造、产品销售及产品售后5个阶段，每个阶段的数据都具有数据来源多样、数据质量低、数据蕴含信息复杂、数据实时性高等特点，而从海量数据中发掘指导制造业研发设计、生产制造、销售售后和经营管理等过程的知识和规则，需要大量的模型算法等数据处理方法的支撑。尤其是在产品生产制造过程中产生的数据，其不仅数据量十分庞大，来源丰富、类型多样、结构复杂，而且由于制造业不同的部门和系统之间数据的来源、存储形式等各不相同，数据源之间存在异构性、分布性和自治性，数据类型既包括数字、关系型数据等结构化数据，也包括图像、音频等非结构化数据。因此，这对制造业生产制造过程中海量数据的处理方法和技术提出了更高的要求。为了充分发挥制造业多源异构数据信息的潜力，更加高效地进行数据处理，必须在明确多源异构数据概念的基础上，对多源异构数据的处理方法和技术展开深入且系统性的研究。

本文首先明确了制造业生产过程中多源异构数据的概念和类型；其次对生产过程中多源异构数据处理的过程进行了划分，同时对各个阶段的数据处理方法和技术及其在制造业生产过程中的应用进行了深入分析与讨论；最后，对生产过程中多源异构数据处理方法及技术进行了总结，并对现阶段面临的挑战及未来的发展趋势进行了分析与讨论。

2 制造业生产过程中的多源异构数据

《大数据：下一个创新、竞争和生产力的前沿》针对社会对大数据的关注及应用需求，对海量数据的处理技术进行了介绍和总结。基于对不同来源、多种结构数据的综合研究的迫切需要，多源异构数据这一概念随之产生，其主要包括两个特征：一是数据来源具有多源性；二是数据种类及形态具有复杂性，即异构性。

图1 制造流程的5个阶段

多源异构数据来自多个数据源，包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同，数据的存储模式和逻辑结构不同，数据的产生时间、使用场所、代码协议等也不同，这造成了数据“多源”的特征。

另外，多源异构数据包括多种类型的结构化数据、半结构化数据和非结构化数据。结构化数据指关系模型数据，即以关系数据库表形式管理的数据；半结构化数据指非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档、E-mail等；非结构化数据指没有固定模式的数据，如WORD、PDF、PPT、EXL及各种格式的图片、视频等。不同类型的数据在形成过程中没有统一的标准，因此造成了数据“异构”的特征。

随着自动化、信息化、智能化等技术在制造业中的广泛应用，在生产过程中必然会产生大量的多源异构数据。从数据的来源来说，制造业的制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统中的各种机器设施、工业传感器等在运行和维护过程中都会产生大量的数据。从数据结构类型来看，这些海量多源异构数据既包括设备监测数据、产品质量检测数据、能耗数据等结构化数据，还包括生产监控系统产生的大量图片、视频等非结构化数据。本文综合其他学者的研究基础，针对制造业生产过程中产生的数据，按照数据来源和类型，将其做如下划分，见表1。对于制造业生产过程中的多源异构数据来说，由于生产过程存在复杂的变化条件，因此对数据的全面性、实时性的要求较高。

3 制造业生产过程中多源异构数据处理

在制造业生产过程中，从前期的数据广泛采集，到最后数据的价值提取，多源异构数据处理的一般流程包括数据采集、数据集成及数据分析。数据采集主要实现大量原始数据准确、实时的采集，为数据集成阶段提供原始数据源。数据集成主要实现数据的数据库存储，数据清洗、转换、降维等预处理以及构建海量关联数据库，为数据分析阶段提供预处理的数据源。数据分析主要利用关联分析、分类聚类及深度学习等技术实现数据的价值挖掘。多源异构数据处理的一般流程如图2所示。