利用强化学习设计具有目标有效杨氏模量的复合材料

PS:

杨氏模量 E :杨氏模量,是一种机械性能,用于测量纵向施加力时固体材料的拉伸或压缩刚度。它量化了拉伸/压缩应力之间的关系(单位面积力)和轴向应变(比例变形)在材料的线性弹性区域中。(比如:拉一根金属丝的末端或者在一根木棍的上方放置一个重物,金属丝会变长、木棍长度会缩短)

泊松比 ν : 泊松比是指材料在单向受拉或受压时,横向正应变与轴向正应变的比值,也叫横向变形系数,它是反映材料横向变形的弹性常数

描述材料在正交与单一轴应力方向上的响应(金属丝变细、木棍变粗)

拉丁超立方抽样(英语:Latin hypercube sampling,缩写LHS)是一种从多元参数分布中近似随机抽样的方法,属于分层抽样技术,常用于计算机实验或蒙特卡洛积分等。

【深度强化学习】Hindsight Experience Replay(HER):一种对抗稀疏奖励的经验回放技术 - 知乎

0 摘要

增材制造(Additive Manufacturing)的进步使得以前无法实现的材料和结构的设计和制造成为可能。特别是,复合材料和结构的设计空间已大大扩展,由此产生的规模和复杂性挑战了传统的设计方法,如暴力探索和一次一因素(OFAT)探索,以找到最佳或定制的设计。为了应对这一挑战,出现了有监督的机器学习方法,使用精心策划的训练数据对设计空间建模;然而,训练数据的选择通常由用户决定。在这项工作中,我们开发并使用了一个基于强化学习(RL)的复合材料结构设计框架该框架避免了用户选择训练数据的需要对于由柔性和刚性组成材料的5×5复合设计空间,可以使用由2^{25}个设计可能性组成的总设计空间的2.78%来训练模型。此外,开发的基于RL的框架能够以超过90%的成功率找到设计。这种方法的成功促使未来的学习框架利用RL设计复合材料和其他材料系统。

关键字:神经网络、复合材料设计、有限元分析、自动化设计、机械性能

1 引言

        工程复合材料和结构与各自的成分相比,能够实现优异的机械性能[]。根据性能定制满足需求的设计能力使得在航空航天、汽车和海事行业中得到了广泛应用[]。虽然设计过程以前依赖于领域专业知识、仿生学、蛮力穷举搜索或迭代试验和错误[],但最近添加剂制造(AM)的进步极大地增强了可实现的设计空间,并挑战了探索设计空间的传统方法[]。AM提供的设计自由度通过允许制造具有任意几何形状和跨越不同长度尺度的材料分布的复合材料,大大扩展了设计空间。这种扩展也带来了一些挑战,例如如何快速有效地探索广阔而复杂的设计空间,以实现最佳或目标机械性能。虽然提出了更传统的优化技术,但其鲁棒性往往受到设计问题复杂性的限制。

        为了克服其中一些设计挑战,特别是那些与探索和建模设计空间有关的挑战我们建议使用强化学习(RL)。RL算法通过交互学习对问题空间建模,并可以优化以解决特定的控制问题。我们提出了一个设计框架,该框架利用RL来设计和寻找满足指定性能目标的复合设计(图1A)。虽然所学的模型不能为任意复合材料设计问题提供通用的解决方案,但我们的工作为成功地将设计问题框架化为RL问题提供了指导。虽然基于学习的框架比使用更传统的技术运行的任何一种优化都更加数据密集和计算密集,但它们在规模上提供了潜在的好处,在这种情况下,训练后的推理成本可以大大降低。

  • 用于设计参数化复合材料的强化学习(RL)框架,该复合材料由组成材料的刚性柔性构建块组成,以满足指定的目标模量E_{goal}(A)。

        在这项工作中,我们主要考虑一个双材料复合设计问题我们试图优化复合材料设计,以实现特定的材料性能。(1)基于RL的设计框架采用初始复合材料设计和用户指定的预期材料特性,包括目标弹性特性和材料组成,并反复修改设计,直到满足预期特性。(2)设计参数化为组成材料的2D网格,学习策略一次调整一个网格单元的设计。(3)将所需交互的数量上限设置为网格中的单元格数量。实验说明,尽管在训练期间只探索了不到5%的设计空间来解决我们的设计问题,但学习到的RL策略能够在测试中成功解决95%以上的设计任务。

2 相关工作

        为了克服添加剂制造中设计优化的挑战,将计算方法和优化算法相结合的技术,如拓扑优化,使定制复合材料的设计具有目标结构和材料设计要求,如弹性性能、泊松比和可调应力-应变曲线[]。尽管这些方法在特定类别的问题上取得了成功,但它们往往受到设计空间的复杂性和相关计算成本的限制。

        最近,基于机器学习的设计框架在设计和发现具有最佳或目标特性的材料和结构方面取得了成功[]。特别是在复合材料设计领域,利用人工神经网络和深度学习的ML技术已用于分类应用[]和逆向设计应用[]。这些应用证明了利用设计空间小部分观察结果训练基于ML的模型的能力,从而成功评估或预测机械性能。精确ML模型开发面临的一个重要挑战是如何选择合适的训练数据,因为对不足或选择不当的数据进行训练可能会产生劣质模型。在实践中,通常使用均匀随机抽样设计实验方法来选择训练数据,如拉丁超立方体抽样;然而,这些方法的适用性受到设计空间大小和计算或实验成本的限制[]。

        ML模型的成功依赖于适当选择的训练数据,这推动了自动选择训练数据的方法的开发和应用。解决这一挑战的一种方法是强化学习(RL)[]。RL模型,也称为RL代理,与系统进行迭代交互,以影响系统的状态。可以定义奖励函数来反映代理所采取行动的效果,而不是管理行为数据集。RL代理的行为以获得最大回报为条件。这将一些负担从数据集管理转移到奖励功能工程,但在处理大型数据空间时,后者可以更直观、更易于处理

3 设计空间与有限元分析

        为了将复合材料设计框架化为强化学习问题,我们需要建立合适的状态空间表示,并为RL算法建立一个交互环境。与制造和物理分析相比,模拟训练可以提供更快的反馈,因此我们使用有限元分析(FEA)作为评估设计特性的主要分析工具。在使用RL算法之前,必须验证杨氏模量E的有限元预测。本节讨论了所考虑的复合设计空间以及FEA管道(pipeline)的开发和验证

3.1 复合设计空间

        鉴于所有可能的设计集都很大而且难以处理,我们在此考虑一个更受约束的问题,可以通过实验验证,从而为RL-自动设计建立一个可行的框架。我们考虑一个由材料块的5×5二元排列构成的复合设计空间,其中每个块可以由弹性模量不同的两种材料中的一种组成。这两种材料越硬,我们称之为“stiff”,越软,我们称其为“compliant”。复合材料的材料块边长x=5 mm,而总复合材料的边长L=25 mm,深度为5 mm(图1B)。在不考虑任何几何对称的情况下,复合设计空间中总共存在2^{25}种不同的设计。通过改变刚性(stiff)材料的体积分数\phi,可以在设计空间中找到并联和串联复合设计(图1C)。也存在替代设计;例如,大多数柔性或刚性组分材料集中在中心、沿边缘稀疏分布或随机分布的设计(图1D)。由于能够制造替代设计,对于给定的体积分数,可以获得一定范围的杨氏模量值。

3.2 使用有限元分析开发和验证预测模型

         我们开发的模型使用二维显式有限元分析,该分析是在C++中使用太极图形库(Taichi Graphics Library)实现的,用于预测5×5设计空间中复合材料的有效杨氏模量。在这里,我们对柔性和刚性材料以及1e-4的静态压缩应变使用了Neo-Hookean模型。本研究中考虑刚性和柔性组分材料分别为VeroWhitePlus(VW+)和50%VW+和50%TangoBlackPlus(TB+)的体积百分比混合物。

复合材料的有效杨氏模量是根据规定压缩应变1e-4下的预测应力估算的在本研究的所有模拟中,该应力保持不变通过将预测应力除以压缩应变来计算有效杨氏模量。为了模拟复合材料设计的单轴压缩,在复合材料顶面的节点上施加位移边界条件。Neo-Hookean模型的系数由复合材料的杨氏模量和泊松比计算得出。

  • 刚性材料的杨氏模量和泊松比分别为1818 MPa和0.33,而柔性材料的杨氏模量和泊松比分别是364 MPa和0.49
  • 在有限元分析管道中,相对于隐式求解器,选择了显式求解器,以避免隐式分析应用变形过程中需要求刚度矩阵的逆而产生的潜在计算瓶颈。
  • 时间步长设置为2.3e-7,这足够小,可以防止正向欧拉积分中的数值不稳定。
  • 求解器中使用了固定的2000次迭代,根据初步测试,确定其足够大,以保证收敛,而不影响计算时间。此外,根据杨氏模量预测和实验测量之间观察到的合理一致性,确定求解器中使用的参数是合适的。

        本研究中选定的复合材料设计由上述刚性和柔性的材料制成,每个复合材料设计进行三次实验测量,其中E是测量的平均有效杨氏模量。为了使用FEA评估模型,将所选复合材料设计的预测有效杨氏模量\widetilde{E}与在通用试验机(Instron 5984)上进行的准静态单轴压缩试验的有效杨氏模数E的实验测量值进行比较。(1)第一组选定的复合材料设计是仅使用柔性组成材料\phi=0、仅使用刚性组成材料\phi=1以及\phi=0.2,0.4,0.6,0.8的经典并联和串联复合材料设计(图2A)。

  • 复合材料设计\phi=0\phi=1\widetilde{E}和E之间的绝对相对误差分别为6.97%和3.35%。
  • 并联和串联复合材料设计的 \widetilde{E}和E,其中\phi=0.2,0.4,0.6,0.8之间的平均绝对相对误差为12.10%(图2B)。
  • 评估整个数据集时,均方根误差(RMSE)为101.79 MPa,R^2=0.96,其中R为皮尔逊相关系数。

(2)对于这些复合设计,E也可以分别通过并联和串联设计的Voigt和Reuss近似值进行分析估算。

  • 与实验测量值相比,近似值也得出了合理的E预测值,平均绝对相对误差为9.07%。虽然Voigt和Reuss近似能够快速预测E的近似值,但预计模型仅适用于并行和串联复合设计。

        为了进一步评估使用FEA进行的预测,将五种备选设计中的\widetilde{E}分别与单轴压缩试验的实验测量值进行了比较,每种设计的\phi=0.2,0.4,0.6,0.8将这些结果添加到并联和串联数据集中,评估了\widetilde{E}和E之间的一致性。经计算,RMSE为98.69 MPa,R^2=0.97,所有选定设计的\widetilde{E}和E之间的平均绝对相对误差为13.8%(图2C)。基于这些结果,我们得出结论,FEA对杨氏模量的预测与实验测量值吻合良好。有趣的是,从具有不同体积分数的替代设计的E中,观察到了具有非平凡设计的广泛可达到的模量值。具体地说,对于\phi=0.6,最小E为792.3 MPa,最大E在1.04 GPa时约大31%。此外,对于\phi=0.8,最小E为1.16 GPa,最大E在1.44 GPa时约大24%(图2 D)。虽然在替代设计的实验测量中观察到了这个范围,但所有设计的蛮力评估(brute-force)表明,对于给定的\phi,通过替代设计可以实现E的范围。不同\phi的范围重叠表明了针对给定\phi改变性能的能力,这是设计复合材料以满足性能要求的关键因素。注意,复合材料设计的\widetilde{E}仅对应于准静态单轴压缩条件。虽然替代复合材料设计等设计可能具有取决于加载方向的E,但本研究仅考虑图1A所示的准静态压缩条件。

4 开发复合材料设计的强化学习(RL)框架

        强化学习(RL)算法寻求解决连续性决策问题,通常表示为马尔可夫决策过程(MDP)。任何RL设置都有两个主要组成部分——(i)训练环境,(ii)代理(agent(s)),即学习的行为模型。代理会根据环境的当前状态s_t采取操作,环境的状态也会根据所采取的操作发生变化。代理通过尝试最大化从环境中获得的累积回报来决定其行为。为了成功地对RL代理进行任务训练,必须平衡代理策略和任务环境的复杂性。虽然更复杂的策略比特翻转(bit-flipping)问题功能可以增加建模能力,从而可以学习更复杂的任务,但这会增加计算成本和训练数据需求。我们设计任务环境时考虑到了这一点。

        图3概述了为设计具有目标杨氏模量E_{goal}和体积分数\phi_{goal}的复合材料而开发的RL框架。我们首先考虑了RL已经解决的类似问题,发现与比特翻转有密切的相似之处,即修改一个二进制字符串以匹配另一个给定的字符串,一次一个元素。与比特翻转一样,我们的设计问题包括当前状态和期望的未来状态,其中我们的二维材料设计D_t可以表示为二进制字符串(其中n×m网格可以表示为nm维二进制矢量)。与比特翻转问题不同;然而,我们没有提前知道所需的设计,只有所需的特性。通过在状态表示中分别包含当前(迭代t时)和所需的材料特性E_tE_{goal},我们等效地表示了目标状态的必要信息,以允许代理建模并实现所需的物质特性。以这种方式将设计问题表述为一个连续任务有两个关键优点:(i)维持马尔可夫特性的状态是因为与历史信息无关,从而允许RL使用MDP来解决这个问题;(ii)允许终止状态和计算极限的自然表示,从而有助于获得直观的奖励信号。

        将设计问题定义为一个连续的RL问题,使我们能够避开通常在获取用于监督学习的训练集时会出现的困难。在针对此类设计问题或任何搜索问题的典型监督学习方法中,关键问题之一是确定任意状态相对于期望目标状态的“质量(quality)”。计算所需材料特性和当前材料特性之间的标量差异并不能直接转化为一种策略,即通过设计空间实现满足设计目标的可行设计,禁止直接优化。如果没有明确的距离概念,或者首先不知道理想的搜索轨迹是什么,那么很难量化任何给定状态的质量,从而很难定义丢失信号以便于训练。相比之下,RL允许使用更直观的二进制奖励信号来指导训练:如果当前设计的属性在所需属性的偏差范围内,那么代理将获得0奖励,而在所有其他情况下它将获得负奖励(−1)。然后由RL算法学习评估如何最好地遍历设计空间的流形,以满足设计它将获得负奖励(−1) 求。

        我们的代理以Q网络为代表,当[]证明了深度RL在学习玩多种视频游戏方面的可行性时,Q网络变得尤为突出。视频游戏需要代理实现并维护所需的状态,这通常是通过顺序交互实现的,与我们在这里考虑的设计问题非常类似。Q网络学习框架是表格Q学习问题的扩展[],其中RL模型学习将状态和动作映射到预期奖励的Q值函数。如果代理能够准确地建模Q值,那么它可以在每个状态下优化其行为,以最大化回报。深度Q网络扩展了表格式Q学习,将Q函数表示为一个神经网络,而不是一个列举所有状态和动作的表,它预测给定输入状态的任何可能动作的Q值。为了解决n×m网格的问题,代理还被赋予了严格的nm迭代限制,因为期望设计和当前设计(或任意两个设计)之间的最大设计距离不能超过材料单元的数量。从Q学习优化中自然可以看出,代理人学习最大化回报的最佳方法是尽快解决问题。

        虽然合适的训练环境和RL代理设计可以实现有效的学习,但由于深度RL可能是高度数据密集型的,因此它们可能还不够有效,无法实用[]。考虑到配置空间中的大量变化,以及使用FEA分析复合材料所需的时间,在训练期间提高数据效率非常重要。为此,我们利用了Hindsight Experience Replay(HER)[],这是一种为基于目标的深度RL开发的技术,在代理探索其训练环境时,训练数据根据收集的数据进行综合扩充简而言之,HER将环境交互序列中达到的最终和/或中间状态视为合成目标。虽然可能无法实现真正的目标,但交互序列仍然为代理提供了有关如何到达访问过的状态的信息,如果这些状态在未来变得相关的话。实际上,先前经验的虚拟重新背景化使与环境的每一次交互都能作为数据点发挥数倍的作用,从而提高数据效率。

        对于我们的5×5网格设计,代理在750个episodes 内接受经验收集和优化周期的训练,每个周期50episodes,共计37500episodes。episodes 以材料设计中的单元总数为上限,因为这是任何设计所需的最大更改数。总的来说,代理对有限元分析(FEA)求解器的调用不到100万次,虽然这是一个重要的数字,但在训练期间,在2^{25}个设计选项中,最多只能进行2.8%的采样。虽然考虑到设计对称性,真正独特的设计空间可能更小,但我们的方法仍然为学习提供相对较低的数据复杂性。有关设置和培训的更多详细信息,请参见附录B。

5 结果和讨论

         为了评估复合材料设计用RL框架的性能,我们考虑了前面描述的复合材料设计空间,该空间由5×5的材料块二元排列构成,其中每个块可以是柔性或刚性的材料。用户指定一个目标杨氏模量E_{goal}和体积分数\phi_{goal},并且经过训练的代理最多有25次迭代的预算,以返回最终设计–对应于网格中的单元总数。

        例如,给定E_{goal}=500 MPa,\phi_{goal}=0.20,以及随机选择的初始设计配置,初始E_0=808 MPa,且\phi_0=0.52,代理在七个顺序设计变更中返回最终E=512 MPa和\phi=0.24的设计(图4 a)。E的绝对相对误差为2.4%。由于5×5设计空间的离散性,导致的误差为添加了一个刚性材料块,导致最终的\phi比目标的\phi大0.04。由于体积分数\phi \in [0.24,0.48]的可能设计变化的数量,我们观察到,在设计空间的这一区域,代理通常表现最差。此外,图4B中还显示了两个示例,其中一个示例(图4B1)\phi_{goal}=0.4E_{goal}=600 MPa,另一个示例为图4B2,其中,\phi_{goal}=0.80,E_{goal}=1300 MPa。对于图4 B1中的示例,最终返回的配置完全满足\phi_{goal}=0.4,并略微超过E_{goal}=600 MPa 。在第二种情况下,如图4B2所示,返回的配置完全满足\phi_{goal}=0.8,并略微超过E_{goal}=1300 MPa 。代理从随机选择的初始设计开始,然后找到满足两个指定目标的设计,其绝对相对误差小于或等于5%。从这些示例中可以看出,代理在进行修改以实现用户指定的目标时,保留了原始设计的各个方面。观察到的行为表明,代理不仅学会了记忆解决方案,还学会了修改设计,以在规定预算内实现所需性能,理想情况下更改最少。然而,这是RL优化标准的自然结果,因为最大化学习回报的最优策略能够在最少的迭代中满足设计问题。

         虽然先前的结果很有希望,但它们代表了一个经过训练的个体。为了进一步评估复合材料设计的RL框架的性能,我们用20名经过独立训练的代理测试了我们的学习框架,在这20名代理中,我们取得了95%的一致和中位数成功率P(???)(图5A)。95%的中位数成功率反映了每个代理成功解决的2600个设计问题的平均分数(总共52000个随机进行的测试)在预期偏差范围内这是在只需要探索3%的设计空间的情况下实现的,这在很大程度上得益于使用HER。值得注意的是,代理之间的性能差异较小,反映了RL框架在设计复合材料时的稳定性。

        虽然大约5%的案例被归类为“失败”,但它们并没有灾难性地失败,而是未能在25次迭代中在所需偏差范围内实现设计(图5B)。具体而言,代理E的平均误差为61±8 MPa,而\phi的平均误差为8±2%。在所有情况下,成功的偏差设置为E=50 MPa和\phi=0.04(相当于体积分数的4%误差)。偏差使代理能够在广阔的设计空间中快速定位满足指定用户要求的设计。此外,考虑到规定的偏差,即使在“失败”的情况下,最终模型属性中的误差也会略微超出偏差阈值。虽然平均P是一个重要的指标,但P的变化作为\phi的函数也可以洞察RL框架的性能(图5 C)。我们还将RL方法与基于最近邻的解决方案进行了比较,基于设计空间采样,使用的样本数量与RL方法访问的独特配置上限(即2.78%)相同(详见第B.4节)。对于在0.24和0.6范围内的\phi,观察到P略低于0.90。具体而言,\phi=0.48的中值P=0.89最低。P的降低反映出设计空间中的该区域具有最多的可能配置。当将此方法与最近邻方法进行比较时,我们发现RL代理在设计空间中\phi有许多可能的设计配置的区域中的平均性能确实稍差这是意料之中的,因为从设计空间进行抽样,无论是均匀地随机抽样,还是在可能的设计范围内随机抽样,都会导致总样本中的很大一部分都在\phi范围内\phi \in [0.4,0.6]],因为此\phi范围代表超过77%的设计空间。然而,RL方法能够保持相对一致的P水平,即使在设计空间的区域内,这些区域由较少的可能设计配置表示。由于基于RL的求解器有效地构建了自己的系统内部化模型,因此它可以弥补训练数据中相对缺乏的表示。相比之下,高度依赖数据的技术,例如最近邻搜索,将无法推广到可用数据之外,从而允许RL方法实现更高的平均P=0.95,而相比之下,对于\phi-偏向和朴素最近邻搜索而言,P=0.84和P=0.71的平均值分别更高。此外,RL方法试图保持设计与原始输入的相似性,鉴于其数据依赖性,通过基于抽样的方法很难实现这一点。

  • 中位成功率P表示第25和第75个百分位(A),它是在训练期间评估的20名独立代理的环境交互次数i的函数。
  • 测试期间失效情况下与期望性能的偏差分布(B)。
  • 对于52000个随机测试(C)而言,P是\phi的函数。

6 总结

        在这项工作中,我们开发并利用了一个基于RL的复合结构设计框架,以满足用户指定的目标杨氏模量值E。使用由刚性和柔性组成材料组成的5×5复合材料设计空间来评估该方法的有效性。使用基于RL的方法,使用2^{25}个设计空间中约2.78%的空间对模型进行训练。在总共52000个测试用例上测试,20名经过独立训练的RL代理在95%的测试中成功解决了设计优化问题。总的来说,这项工作证明了RL在材料设计中的前景,因为传统的实验方法设计受到设计空间的限制,而受监督的机器学习方法受到训练数据质量的限制。虽然我们认识到,对于这种方法在更复杂的设计和设计需求中的可扩展性,仍然存在一些悬而未决的问题,但这项工作旨在建立一个框架,以及RL应用于自动化设计的可行性。此外,本工作中描述的结果证明了RL在复合材料设计中的可行性,考虑到由材料块组成的复合材料设计的多个配置的分布和布置,RL将激励未来的工作和应用。值得注意的是,在这些情况下,在为更大的设计空间设计RL框架时,必须考虑尺寸和边界效应。基于RL的设计框架能够自动生成自己的训练集并解决后续的设计问题,从而避免了传统的实验设计方法和有监督的ML方法所面临的挑战。这进一步促使材料设计和发现的设计方法专注于探索更大的设计空间。

A 材料建模、制造和分析方法

A.1 制造和机械测试

        使用多材料3D打印机(Objet260 Connex)打印本研究中使用的所有复合试样。使用两种组成材料印刷样本。第一组成材料是VeroWhitePlus(VW+),第二组成材料是50%VeroWhite Plus和50%TangoBlackPlus(TB+)的体积百分比混合物。使用通用测试系统(Instron 5984)以3mm/min的加载速率进行压缩测试。制作并测试每个选定复合材料设计的三个样品,以获得杨氏模量的平均测量值,杨氏模量测量值为测试样品应力-应变曲线线性部分的斜率。

A.2 分析

        由两种材料组成的复合材料设计的杨氏模量E的可实现范围受Voigt和Reuss分析模型的限制。Voigt模型假设并联的复合设计可以被建模为并行作用的弹簧,而Reuss模型假设串联的复合设计能够被建模为串联的弹簧。这些模型是刚性成分的体积分数\phi_s、刚性成分材料的模量E_s和柔性成分材料的弹性模量E_c的函数。

Voigt模型可以表示为

E=\phi_s E_s + (1-\phi_s)E_c

Reuss 模型可以表示为

E=(E_cE_s)/(\phi_s E_s + (1-\phi_s)E_c)

组成材料E_sE_c的模量分别为1818MPa和364MPa。

A.3 有限元分析

        为了预测复合材料设计的E,我们进行了二维有限元分析(FEA)。5×5复合材料设计使用40×40四边形有限元网格表示,其中复合材料的每个单元由8×8网格表示。我们采用Neo-Hookean材料模型来计算每个元件的超弹性响应,其中应变能量密度函数由[Sifakis和Barbic 2012]给出。

 W=\frac{\mu}{2}(I_1-2-lnJ)+\frac{\lambda}{2}(lnJ)^2 \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad (1)

这里,µ和λ是Lamé参数;I_1是右柯西-格林变形张量的第一不变量;J是变形梯度的决定因素。根据杨氏模量(E_s,E_c)和泊松比(v_s,v_c)计算刚性和柔性基底材料的材料系数(\mu_s,\mu_c,\lambda_s,\lambda_c),如下【Kelly 2013】。

 我们将E_sE_c设置为与实验测量值相同,v_s=0.33,v_c=0.49。此外,我们对节点速度v_{i,j}应用负指数阻尼,以解决FEM中的材料粘度问题。

阻尼常数\gamma被设置为1e5,这将在成分材料模拟中产生理想的阻尼效果。基于这些设置,在静态压缩应变等于1e-4的Dirichlet边界约束下,在加载方向上的位移上,使用显式求解器求解变形。时间步长(∆t_{sim})设置为2.3e-7,其足够小以防止前向欧拉积分中的数值不稳定性。最重要的是,我们运行了固定的2000次迭代以保证收敛。然后,从边界节点处测量的标准应力导出估算的杨氏模量。模拟器是用C++和太极图形库实现的[]。此外,我们注意到模拟器并不是我们的计算流水线的瓶颈,因为每个模拟在单个CPU内核上花费的时间远远少于一秒钟。

B 强化学习框架

B.1 任务环境设计

        在设计步骤t,任务环境状态用29维s_t \in S,其中s_t^i \in [0,1]S \in R^{29}。前25个组件捕获了5×5材料设计网格D__t。第26和第27分量分别获取材料成分的当前杨氏模量和体积分数,而第28和第29分量分别获取所需模量和体积分数。众所周知,神经网络对输入的规模很敏感,因此我们将杨氏模量除以两种材料模量的最大值,即

f(E)=\frac{E}{max(E_1,E_2)}

从而对杨氏模量进行缩放。代理所采取的操作实际上选择了设计网格中的一个材质单元,以在两种材质之间“翻转”。对所得设计矩阵的材料性能进行评估,并将其与修改后的设计一起作为下一状态s_{t+1}返回给代理。在训练期间,s_{t+1}还用于计算−1或0,这取决于状态是否在所需特性的偏差范围内。我们使用50 MPa的杨氏模量容差和4%的体积分数偏差,即与所需组合物相差一个材料单元。

         对于每episode的训练,其限制为25次迭代,因为这是理论上实现5×5网格目标所需的最大变化次数,目标体积分数和期望的杨氏模量是从Voigt和Reuss近似定义的可能体积分数和杨氏模量范围中随机选择的(如图2所示)。随机统一选择的设计也会被实例化和评估。如果设计的特性开始时过于接近目标特性,则会重置目标,直到所需的杨氏模量与当前设计的模量相差至少100 MPa。

B.2 网络设计与培训

        为了近似Q函数,我们使用一个具有输入层3个完全连接的隐藏层和一个输出层的神经网络。输入层具有29个输入节点,以在由训练环境提供的29维状态中读取。第一和第二隐藏层分别具有128和64个神经元,具有整流线性单元(ReLU)激活[]。这些被传递到26维层,该层估计26个可能动作的Q值(每个材料单元“翻转”一个动作,包括试剂不做任何动作的空动作)。输出动作由预测Q值上的argmax确定,以选择具有最高预期值的动作。我们使用Q值折扣因子\gamma=0.99,并使用Adam优化器[]训练网络,学习率为10^{-3},批大小为320,训练缓冲区大小为2\times 10^6。训练在750个周期内运行,每个周期50 episodes,每episodes包含25个环境交互(成功后不会立即终止,以便代理学会不偏离良好的设计)。在每个循环结束时执行500个优化步骤。

        为了减轻Q网络中的过度拟合和过度估计,我们采用了双深度Q学习。双Q学习[]在训练中使用两个网络,而不是一个。这些网络以相等的权重开始,但只有一个网络在训练期间不断更新(“主”或“实时”网络),而另一个网络(“目标”网络)在设定的时间间隔内保持固定。当估计训练损失的Q值时,目标网络用于估计时间差分误差[],并且仅定期使用来自实时网络的权重进行更新。在训练期间,我们在目标网络和实时网络之间的权重上使用95%的插值因子,每周期更新一次目标网络。

B.3 开发详尽的数据集

        为了能够对实验设计进行快速测试和迭代,我们开发了一个包含2^{25}种可能设计及其相关FEA值的详尽数据集。虽然任何单个代理都需要少于100万个数据样本(少于设计空间的3%),但每个代理可能会经历不同的数据集,这也是RL训练的本质。然而,每次FEA调用都需要时间,在学术环境中,这被发现限制了RL框架的早期开发。为了缓解这一问题,我们将每种可能设计的FEA计算并行化,以便为所有设计建立一个材料特性库,RL代理可以在培训期间查找这些库。这确保了我们不会重新计算任何先前计算的模型的FEA,也允许我们在验证我们方法的有效性时大规模并行多个代理的训练,以证明性能一致且可重复。我们再次强调,这样做只是为了促进对该方法进行性能分析的学术追求——在培训期间,任何单独的代理只需要直接连接到FEA求解器,只需要培训一次。

B.4 针对强力法的测试

        详尽数据集的开发也使我们能够将RL方法与强力方法进行比较,以解决类似的设计问题。一个幼稚的蛮力算法,如果遵循比特翻转启发的问题公式,将在运行时带来太多的不确定性,并且可能需要从数据集中进行大量采样--在实际应用中,这相当于花费在有限元求解器上的大量时间。相反,我们将我们的方法与最近邻方法进行比较,在最近邻方法中,从可能的设计的完整集合和给定的设计要求中对设计子集进行采样,使用采样子集中的最近邻来呈现可能的解。通过对数据集的3%进行采样,最近邻求解器很容易被限制为使用与RL算法相似的总数据量。

        我们采用了两种采样策略来构建最近邻搜索子集:(i)原始最近邻:使用3%的数据,从完整数据集中均匀采样;(ii)有偏最近邻:对于26个可能体积分数中的每一个,使用3%的可能样本,总计占整个设计空间的3%;这两种情况都四舍五入到最接近的整数。前者固然是一种幼稚的方法,但可能更能反映RL代理可能会遇到的采样,因为我们没有明确尝试限制RL算法如何探索设计空间。然而,后者是一个微小的变化,它使用了我们对设计空间的一点先验知识,以更好地塑造最近邻解决方案。由于我们没有跟踪RL代理在训练期间访问的唯一状态的数量,因此仅就策略比较采样策略更难判断,但我们能够比较设计任务的性能。鉴于最近邻方法不试图对设计空间进行建模,因此我们不会将最终解与任何初始状态的相似性进行比较,因为在这个特定的设计问题中,这不是可以合理预期的技术。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值