基于跨区块恶劣条件的岩石薄片分析,加速地质工程一体化推进

我是菜鸡之3区SCI文学尝试

开发者:马赫 邮箱:mahepetroleum@163.com 通讯地址:北京市昌平区府学路18号中国石油大学(北京)

[1] He Ma, et al., 2022. Rock thin sections identification under harsh conditions across regions based on online transfer method[J] Computational Geosciences.

1. 概述

1.1 行业背景与痛点

2021年中国石油对外依存度达72%,作为战略物资油气资源的开发需要得到充分地保障。然而,近年来油气开发的复杂程度日益加大,构建高效的工程实践之路不可或缺。基于多学科、多工程融合的地质工程一体化技术应运而生,在提高单井产能为核心的目标上,整体性地带动全过程优化。作为地质工程一体化的基础,地质分析是技术攻坚的排头兵、项目推进的先行者,更是全链条的奠基石。我们需要研究这些石头,其中目标区块常常由于时间、技术和资金的制约难以获得足够的资料,因此对于大量的研究工作都造成不利条件。我们希望能通过其他地区的资料帮助目标区块完成知识积累,这就意味着跨区块的岩石薄片分析成了必须克服的障碍。

1.2 项目价值

我们提出了一种基于MaSE-ResNeXt的改进方法,利用神经网络特征图进行岩石特征分析的迁移学习。通过提出继承性和实时在线迁移学习的解决方案,解决了新区域恶劣条件下的岩石薄片自动识别的问题,充分利用了多个区块的地质数据。通过该研究弥补了以往地区在跨区域岩石薄片识别中无法有效继承的空白,为新区块的开发提供了动力。具体表现为:在大规模岩石薄片数据集上设计了针对性的纹理提取器,超过了过往研究的5%性能提升,验证了模型的可靠性。进一步针对易混淆的岩石薄片进行灵敏度分析,讨论了鲕粒结构特征图的灵敏度问题,f1分数达到0.95,证明了跨区域转移的预测稳定性。基于这些技术支撑,利用稀缺的地质数据对冷启动问题进行实时在线迁移学习,训练速度提高15倍,准确率提高了20%。
此外,我们还提出了新的岩石薄片纹理可视化方法,通过将不同卷积块的特征图进行可视化,给岩石的边缘与区域注意力提供了新的视角。

2.实验过程

2.1 数据准备与分析

由于不同地区的岩石孔隙结构与矿物成分受到地质因素而产生区域性的分布差异,为了避免单一数据集的偶然性导致研究结果出现偏差,以及更好的反映真实情况中面临迁移任务和超小样本问题的适应性,我们采用三套各具特色并且不同地区的数据集。
第一套数据集采用 (Lai et al., 2020) 的大规模岩石薄片数据集,该数据集具有层次性强和类型覆盖率高的特点,覆盖了105种,占常见岩石类型90%以上,因此可以充分的作为地质领域迁移学习的基础模型。进而使得以此为基础进行小样本的在线迁移学习,更具有针对性的解决油田面临的挑战。数据集以两级分类为主体结构。第一级分为沉积岩、火成岩、变质岩。第二级将其各自细分,共105种。该数据集具有规模大、类别均衡的特点,共2634张图片,沉积岩包含28个类别699张薄片样本,火成岩有39个类别963张,变质岩有38个类别972张。除了很少几个类别外,每个类别都由3个岩石样本组成,其中每个岩石样本都包含1张单偏光照片和7张正交偏光照片。表1展示了3个辉绿岩样本的单偏光照片和正交偏光照片。表2给出辉绿岩部分薄片鉴定信息。
在这里插入图片描述

在这里插入图片描述

研究发现,上扬子西北缘的地层记录到晚二叠生物大灭绝,已发现多个大型气田,对于油气勘探开发具有重要意义。因此,为了增强对该地区的研究,第二套数据集 (Chai et al., 2020) 在该地区选取了4条剖面,从中选取了两种灰岩和两种白云岩作为相似类别的识别验证。共152张岩石薄片作为迁移学习的数据集,分别为亮晶内碎屑灰岩、微晶白云岩、泥晶灰岩、鲕粒白云岩。该数据集从岩石类型、性质、晶粒等方面给出了详细的信息。以泥晶灰岩样本1号的薄片为例,汇总了该样本的部分信息。

在这里插入图片描述

为了解决实际勘探开发时面临样本稀缺的问题,第三套数据集采用具有超小规模数据集,每个类别有4张图像,给神经网络的训练带来极大的挑战,与现实情况一致。针对拉萨地区的5套白垩纪碎屑岩地层进行研究。对于该地区的两类灰岩和两类砂岩进行识别对比。晶屑凝灰岩、石英岩屑杂砂岩、英安质凝灰岩、钙质粉砂岩,进行以大规模岩石薄片为基础,针对小样本的在线学习研究。

2.2 网络模块设计

利用特征图权重增强特征之间的通道连接,SENet在学术和工业实践中都取得了很好的效果(Hu et al., 2018),允许模型提取相关特征,抑制与任务无关的特征。此外,还加强了特征通道之间的学习,以获得更具方向性的特征信息。特征通道的自适应标定主要通过压缩、激励和重标定三个操作来完成,从而大大提高了模型的识别率。在复杂网络条件下,压缩和激励对降低模型的复杂性具有重要的价值,可以增强多通道之间的特征融合效果。但由于岩石薄片识别背景复杂,工程问题全局相似性强,存在一定的局限性。为克服上述问题的影响,以大规模多尺度岩石薄片识别模型MaSE-ResNeXt为灵感,构建了处理油田生产过程中小规模数据集复杂传输任务和在线学习任务的神经网络。构建扩展迁移层(带迁移的全连接层),有效地将以往资料中提取的岩石薄片特征作为经验推广到新油田,以供经验传递之用。改进的带Transfer的MaSE-ResNeXt网络结构如图1所示。其中,橙色块是对整个流程中各个重要部分的详细说明。橙色块之外的另一部分是整个过程。

Fig. 1 The network structure of modified MaSE-ResNeXt with Transfer
Fig. 1 The network structure of modified MaSE-ResNeXt with Transfer

2.3 岩石薄片在线迁移方法

不同区块的岩石薄片在特征、样本数、岩石类型等方面存在差异。因此,在离线训练阶段,首先使用大规模的岩石薄片数据集(第一个数据集)作为源域数据。采用数据增强策略后,将预处理后的原始数据输入神经网络获取输出值。当模型收敛后,可以得到预训练好的大尺度岩石薄片源域识别模型。将已开发油田(称为源域)的经验转移到新油田(称为目标域),并在此基础上再次加强,对油田的开发具有重要意义。一种更简单的方法有望帮助油田实现其目标。因此,我们提供了一种迁移学习的方法,用大量已开发油田的数据训练CNN网络,并利用少量新油田的数据,根据以往的经验进一步使模型适应新油田。一个已开发的油田就像一个老师,为模型提供了用于新油田的先验知识。建立完整的网络模型,然后截取卷积层作为特征提取器。冻结这些参数,以防止在传输过程中训练全连接层时梯度过大,对卷积层的参数产生不利影响。在使用迁移学习数据集(第二个数据集)更新全连接层的参数后,执行几个阶段的训练。当模型收敛后,可得到适用于转移数据集的岩石薄片识别模型。
在线迁移学习数据集(第三个数据集)采用了类似的设计概念,只强调了与少量可用训练数据相关的问题。该系统基于大规模岩石薄片识别模型,以新油田的岩石薄片进行迭代输入。该方法利用原有的特征提取器参数对新样本进行识别,得到新样本后再对模型参数进行更新。通过这种方式,可以滚动地提高识别的针对性。在线迁移学习过程如图2所示。
Fig. 2 The flow chart of MaSE-ResNeXt with online transfer for rock thin sections identification
Fig. 2 The flow chart of MaSE-ResNeXt with online transfer for rock thin sections identification

2.4 实验流程设计

为了从基础性、普适性、困难性三个角度分析模型对于本研究的实际问题的解决能力与效果评价,我们首先进行超参数的计算,并从三个维度进行实验设计。实验1采用大规模的岩石薄片数据集作为研究基础,通过对比过往研究的效果,检验本研究基础的可靠性,获得大规模的岩石识别方法与源领域预训练模型。实验2对于更换研究区域后数据集变化这一问题进行迁移学习的仿真研究,分析算法与优化器配置的敏感性,研究特征提取器的可视化分析,获得适用不同地区的迁移方法与模型。实验3采用超小规模数据集模拟在恶劣情况条件下,勘探资料稀缺地区迁移问题的可靠性,探讨迁移优势与误差分析,并对比其他研究分析差异性。

Fig. 3 Three datasets and corresponding experimental processesFig. 3 Three datasets and corresponding experimental processes

3 结果与讨论

3.1 源域模型识别实验

105个分类的大尺度岩石薄片的迭代记录如图4所示。灰色曲线表示损失值随着网络训练时数的增加而不断减小。虽然损失值波动,但整体上不断克服局部最优的陷阱,从而进一步降低了损失。蓝色曲线代表每个时代的准确性,总体上呈现出上升的趋势。模型在早期的精度受到大量随机状态权重的影响,使得性能提升缓慢,而在中期提升速度显著增加。在后期,由于精度较高,解空间中出现局部最优解的概率较大。模型的精度提高速度变慢,接近收敛。黄色曲线代表每个epoch中每个批次的准确率,它的波动比蓝色曲线所代表的每个epoch的准确率更严重。经过源域训练后,测试集的准确率达到81%。

Fig. 4 Accuracy and loss curve of 105 categories for large-scale rock thin sections identificationFig. 4 Accuracy and loss curve of 105 categories for large-scale rock thin sections identification

3.2 目标领域迁移实验

采用第二套数据集,将两种灰岩和两种白云岩作为相似类别进行目标领域的迁移实验。模型识别对比采用SENet和改进后的MaSE-ResNeXt进行训练。图8显示二者经过130轮的训练后收敛。虽然二者在训练阶段收敛速度相近,但通过测试集的检验后发现,SENet的测试集准确率为72%,MaSE-ResNeXt取得94%,准确率提升了22%,如图5。模型的优越性得到验证。模型效果提升的原因在于多通道间的信息虽然在原有模型中得到了有效的利用。改进后的模型更考虑到了岩石薄片的全局相似性问题,图像在样本上呈现出整体的一致性。因此改进后的网络结构更适宜解决岩石薄片的问题。

Fig. 5 The comparison of the two model identification in the target domain
Fig. 5 The comparison of the two model identification in the target domain

在确定了相关参数设置后,先冻结特征提取器训练全连接层进行5轮的迁移,再进行90轮完全的训练过程。经过95轮的迭代得到图9所示的模型收敛曲线,测试集准确率达到94.4%。通过图6的混淆矩阵可以看出,共有两个样本识别错误,将亮晶内碎屑灰岩误判为泥晶灰岩,以及将泥晶灰岩误判为微晶白云岩。

Fig. 6 Confusion matrix of the transfer learning in the target dataset
Fig. 6 Confusion matrix of the transfer learning in the target dataset

表8详细的说明了各个类别的分类指标,其中采用类别加权的评价指标来衡量由于各个类别间样本数量差异导致的类别不均衡问题,加权后的F1-score可达到0.95,证明了模型的高效性。

在这里插入图片描述
尽管上述实验存在两个样本的判断错误,但对于微晶白云岩和鲕粒白云岩来说,则全部预测正确。这一现象可以充分说明白云岩的特征对于神经网络具有显著性的特征值。因此,对于对各个类别进行卷积层的特征提取,可以发现不同样本输入后有各自的分布特征。其中,第一行与第二行是识别错误的样本,第三、四行是在测试集中随意选取的样本。

在这里插入图片描述

Fig. 7 Neural network feature map

通过分析图7的特征图可以明显看出,鲕粒白云岩在不同层上的特征都具有显著的鲕粒结构,因此对于模型的辨识度高。相反,微晶白云岩与亮晶内碎屑灰岩的特征图表现出强烈的相似性的问题,粒度分布平坦,这就造成网络进行前向传播的过程中容易受到特征分布相似的原因造成的真实类别概率值不突出,进而造成误判。这些相似性对于具有丰富经验的专家而言可以通过寻找图像的某个局部特征进行分辨,而对于神经网络而言以样本分布相似程度为依据导致了模型陷入错误分类的方向。因此,在实际工作中可以采用在线学习策略来增强模型对于容易犯错类别的模型表达能力。

3.3 在线迁移实验

基于第三套数据集的两类灰岩和两类砂岩来针对性的解决勘探前期工作中数据稀缺这一工程问题。本实验的每个类别各4张样本,采用基于大规模岩石薄片分类的在线迁移训练和直接训练的训练过程如图8。

Fig. 8 Convergence comparison of the training methods for small-scale datasets
Fig. 8 Convergence comparison of the training methods for small-scale datasets

灰色的曲线代表直接训练的过程,经过近500次的迭代模型收敛,这个过程属于标准的数据集训练模式,测试集准确率60%。蓝色曲线表示5轮迁移过程,网络加载了已经在大规模岩石薄片的卷积特征,仅需修改一下分类器的权重,即可作为训练基础,再经过了25轮的训练就完成了所有的训练任务。通过曲线可以看出,如果直接训练,由于卷积层的特征提取器缺乏大量样本的喂入,对于网络参数最优解的搜索慢,因此需要消耗大量资源用以迭代,因此模型的收敛效果差。与此相反,我们基于以有的大规模预训练模型作为网络参数,让模型具有更好的迁移初始值,进而实现最快速度完成收敛,宏观上可以看出效率提升1500%,并且测试准确率80%,也得到了进一步的提升。这一结果可以在新地区缺乏岩石资料的区域,以最快的速度和高精度来帮助地质专家完成对该地区的资源评定工作。

Fig. 9 Error analysis of small-scale samples
Fig. 9 Error analysis of small-scale samples

测试集上唯一的预测错误是发生在将一张石英岩屑杂砂岩误判为英安质凝灰岩。两个类别都从两个岩石样本中采样获得的,并且都进行了单偏光(-)和正交偏光(+)采样。图13可以明显发现右面的两个图像,虽然来自于不同的岩石,但具有相似的斑纹构造。而左面的两个岩石样本,其嵌入的块状晶体以及整体的纹理分布差异显著,对于小规模数据集而言,难以让模型在训练的过程得到有效的表征。因此,随着研究区域在后续的勘探开发过程中对该地区研究的进一步深入,该类岩石样本获得增加,在线学习将持续性的提升模型的预测效果,满足实际生产开发过程中的要求与挑战。
(Lima et al., 2020) 对于公共领域的数据集作为迁移学习的源领域模型,采用ResNet的方法,虽然在一套数据集中取得了很好的效果,但也发现当更换数据集后效果显著下降。准确率降低到44%,相比于本研究存在36%的不稳定性。我们采用的基于大规模岩石薄片数据集作为源领域模型,从卷积层的参数表征上就取得了一定的优势。这种方法可满足少量数据集完成网络权重的微调任务。与此同时,采用更加适应具有全局相似度高的改进算法,获得针对性的性能提升。因此,在第二套和第三套数据集中均取得了稳定且高效的预测效果,进一步的验证了系统的优势。

4. 总结

为解决岩石薄片识别中跨区域转移的问题,本文对MaSE-ResNeXt网络在模型针对性和转移学习方面进行了改进。设计了一个有针对性的网络结构,以建立预训练的地质模型与大规模岩石薄片数据集。为了获得稳定高效的性能,对不同区域的岩石薄片进行了在线迁移学习。该模型可为模型表达能力有限、样本数量有限等苛刻条件下的岩石薄片识别转移学习提供一种实用的解决方案。
(1)基于SE结构构建改进的MaSE-ResNeXt网络,设计培训和转移流程。基于大规模岩石样本,建立了高性能的地质特征提取器,105类测试集的提取精度达到81%。
(2)在迁移学习数据集中,比较不同模型和优化器的预测精度,选择最优参数设置。在实际测试中,f1的加权得分为0.95。
(3)通过建立各类褶积层的特征通道图,发现其上的鲕状结构具有较强的区分特征,在区分微晶白云岩和晶晶内碎屑灰岩时存在特征图平面化的问题。
(4)在小规模数据集实验中,基于在线迁移学习方法的模型优于传统模型和使用其他数据集的迁移学习模型。与之前的研究相比,该测试集的收敛速度提高了15倍,准确率提高了20%。

Code Availability

Repository: https://github.com/mmmahhhhe/MaSeResNeXt

References

  1. Ma, H., Han, G., Peng, L., Zhu, L., Shu, J., 2021. Rock thin sections identification based on improved squeeze-and-Excitation Networks model. Computers & Geosciences 152, 104780.
  2. Lai, W., Jiang, J., Qiu, J., 2020. A photomicrograph dataset of rocks for petrology teaching at Nanjing University. China Scientific Data 5, 26–38.
  3. Chai, H., 2020. A carbonate micrograph dataset of Feixianguan Formation in northwestern margin of Upper Y angtze. Science Data Bank. https://doi.org/10.11922/sciencedb.j00001.00021.
  4. Lai, W., 2020b. Photomicrograph dataset of Cretaceous siliciclastic rocks from central-northern Lhasa Terrane, Tibet. Science Data Bank. https://doi.org/10.11922/sciencedb.j00001.00021.
  5. Chai, H., Xing, F., Gu, Q., Chen, X., Zhou, S., 2020. A carbonate micrograph dataset of Feixianguan Formation in northwestern margin of Upper Y angtze. China Scientific Data 5, 131–140.
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。在编写C程序时,需要注意变量的声明和定义、指针的使用、内存的分配与释放等问题。C语言中常用的数据结构包括: 1. 数组:一种存储同类型数据的结构,可以进行索引访问和修改。 2. 链表:一种存储不同类型数据的结构,每个节点包含数据和指向下一个节点的指针。 3. 栈:一种后进先出(LIFO)的数据结构,可以通过压入(push)和弹出(pop)操作进行数据的存储和取出。 4. 队列:一种先进先出(FIFO)的数据结构,可以通过入队(enqueue)和出队(dequeue)操作进行数据的存储和取出。 5. 树:一种存储具有父子关系的数据结构,可以通过中序遍历、前序遍历和后序遍历等方式进行数据的访问和修改。 6. 图:一种存储具有节点和边关系的数据结构,可以通过广度优先搜索、深度优先搜索等方式进行数据的访问和修改。 这些数据结构在C语言中都有相应的实现方式,可以应用于各种不同的场景。C语言中的各种数据结构都有其优缺点,下面列举一些常见的数据结构的优缺点: 数组: 优点:访问和修改元素的速度非常快,适用于需要频繁读取和修改数据的场合。 缺点:数组的长度是固定的,不适合存储大小不固定的动态数据,另外数组在内存中是连续分配的,当数组较大时可能会导致内存碎片化。 链表: 优点:可以方便地插入和删除元素,适用于需要频繁插入和删除数据的场合。 缺点:访问和修改元素的速度相对较慢,因为需要遍历链表找到指定的节点。 栈: 优点:后进先出(LIFO)的特性使得栈在处理递归和括号匹配等问题时非常方便。 缺点:栈的空间有限,当数据量较大时可能会导致栈溢出。 队列: 优点:先进先出(FIFO)的特性使得
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值