Earthquake transformer – an attentive deep-learning model for simultaneous earthquake detection and phase picking
文章目录
Abstract
EQTransformer是同步地对地震检测和相位拾取的。将这两项任务串联起来进行有利于提高模型表现,使用了分层次的注意力机制来结合相位和整个波形的信息。模型性能很好,在日本Tottori地震上应用了该模型,检测了五周的连续数据,能够使用少于1/3的台站检测出两倍的地震。P波S波检测准确率接近分析师,并且高效和高敏感度可以检测更多和更小的事件。
Introduction
地震信号检测和相位拾取是地震监测中的两个主要挑战。
- 检测是指在众多非地震信号和噪声中识别地震信号;
- 相位拾取是指测量地震信号中不同地震相位的到达时间,用于估算地震位置。
这两项任务虽然有相似之处,但目标不同:
- 检测的重点是减少误报和漏报率
- 而相位拾取则关注提高到达时间的精度。
本文提出了一种新的深度学习模型(EQTransformer),通过引入注意力机制,同时检测地震信号并拾取P波和S波相位。该模型在日本的连续波形数据上进行了测试,并展示了其在其他地区的泛化能力和改进地震源表征的能力。
Results
Network architecture
图1. 网络结构
我们的神经网络采用多任务结构,包括一个非常深的编码器和三个独立的解码器。
由以下组成:
- 1D卷积
- 双向和单向长短期记忆(LSTM)
- Network-in-Network
- 残差连接
- 前馈层
- transformer和自注意层组成。
编码器处理时域中的地震信号,生成高级表示和时间依赖的上下文信息。
解码器利用这些信息,将高级特征映射为三个概率序列,分别对应地震信号、P相位和S相位在每个时间点的存在概率。
由于自注意模型的内存需求随序列长度增加,作者在编码器前增加了由卷积和最大池化层组成的下采样部分。
这些下采样特征通过一系列残差卷积和LSTM块转换为高级表示。
编码器末端的全局注意力部分旨在将网络的注意力引导到与地震信号相关的部分。然后,这些高级特征通过一个解码器分支直接映射到表示地震信号存在的概率向量。另两个解码器分支分别与P相位和S相位相关,其中在开头放置了一个LSTM/局部注意单元,进一步引导网络关注与个别地震相位相关的局部特征。
每个块内的残差连接和网络内网络等技术有助于在扩展网络深度的同时保持可控的错误率和训练速度。结果是,我们的56层深度网络只有约372K个可训练参数。网络架构设计基于领域专长,优化和超参数选择基于大量原型网络的实验。
Data and labeling
数据集使用的是STEAD数据集。地震地理分布如图2:
图2. 数据集地震事件地理分布
没有日本地区的地震数据波形。按照85%、5%、10%花粉训练集、验证集、测试集。波形长度1分钟,采样率100Hz,都经过了1.0-45.0Hz的带通滤波。
对于检测任务,矩形的标签视作真实值。P波到时到S波到时+1.4*(P波到时-S波到时)这些点设为1,其余都为0。
对于相位拾取,测试了矩形、高斯和三角形,最终三角形的loss最低,F1值最好。在这种情况下,P波和S波到时的概率设为1,前20个和后20个样本的概率线性减少至0。
关于三种打标签的方法,可以参考图3:
图3. 三种打标签的方式,从上到下分别为高斯、三角和矩形。图源:seisbench
Training
对于卷积和 LSTM 单元,所有权重使用 Xavier 正态初始值设定项进行初始化,并将偏置向量设置为零。
优化器Adam,学习率动态变化。
在TensorFlow下训练,4路并行V100 GPU。花费O(89)个小时。连续12个epoch的验证集loss不降低则停止训练。
数据增强:
- 在空白部分添加次级地震信号。概率0.3。
- 在地震波形中添加水平的高斯噪声。概率0.5。
- 通过数组旋转随机移动事件位置。概率0。99。
- 在噪声波形中随机添加间隙(短时间段置为0)。概率0.2。
- 随机丢弃一个或两个通道。概率0.3。
在训练过程中,每个批次的一半数据是对另一半波形进行增强后的版本。采用了所有dropout层的0.1的丢弃率,包括在训练和测试时都使用。
Exploring the network’s attention
注意力权重定义了我们在预测结果时应该考虑哪一部分的输入,这个可以表示为一个重要性权重的向量。将其可视化可以使我们看到神经网络学习了聚焦在输入数据的哪一个部分。
图4. 注意力权重。将对检测和拾取任务最有用的一部分给高亮显示了出来。
在神经网络的检测解码器中,由于标签长度较长,导致较高的损失。这种情况使得网络自然而然地首先学习在时间序列中区分地震信号。
图1中I的这一层transformer选取对检测和相位拾取最重要的信息向下传递,使得解码器可以直接利用这些信息。P波和S波解码器的Local Attention层聚焦在更小的一部分上。分层的注意力机制可以解释为条件概率:
P
(
e
a
r
t
h
q
u
a
k
e
s
i
g
n
a
l
∣
i
n
p
u
t
w
a
v
e
f
o
r
m
)
=
e
n
c
o
d
e
r
(
i
n
p
u
t
w
a
v
e
f
o
r
m
)
P(earthquakesignal|inputwaveform) = encoder(inputwaveform)
P(earthquakesignal∣inputwaveform)=encoder(inputwaveform)
P
(
P
_
p
h
a
s
e
∣
i
n
p
u
t
w
a
v
e
f
o
r
m
)
=
P
_
d
e
c
o
d
e
r
(
P
(
e
a
r
t
h
q
u
a
k
e
s
i
g
n
a
l
∣
i
n
p
u
t
w
a
v
e
f
o
r
m
)
)
P(P\_phase|inputwaveform) = P\_decoder(P(earthquakesignal|inputwaveform))
P(P_phase∣inputwaveform)=P_decoder(P(earthquakesignal∣inputwaveform))
Results and comparison with other methods
和其他深度学习模型和传统拾取方法对比。其他的深度学习模型都是在不同数据集上预训练的模型,应用到STEAD的测试集。
预测示例如图5所示:
图5. 测试结果。测试集中四个代表性波形(a–d)以及在日本鸟取(e)和加利福尼亚的Ridgecrest(f–h)应用模型到连续数据中的四个波形,展示了模型在不同类型数据上的表现。每个波形长度为60秒,采样率为每秒100次,并经过1-45 Hz的带通滤波。每个面板顶部显示三个通道的波形,底部显示模型对地震信号检测、P波到达和S波到达的预测结果。在a到d中,前两个通道上的垂直彩色线是目录中的手动到达时间标记。a是记录在距震中55公里处,震级为2.2的事件;b是记录在距震中173公里处,震级为4.3的事件;c是记录在距震中38公里处,震级为0.1的事件;d是记录在距震中110公里处,震级为2.0的事件。输出概率以分布形式呈现,可以反映变化或模型的不确定性。e到h是在对连续数据应用模型后检测到的事件,展示了模型在1分钟窗口内存在多个事件(e和f)、数据包含零填充的间隙(e)、事件发生在边缘(e)、两个通道损坏或有噪声(g)、或仅存在一个分量数据(h)时的表现。
用一个confusion matrix来表示检测的效果:
图6. 阈值0.5的confusion matrix
只有一个假阳性。和其他模型对比结果如表1所示。
表1. 检测结果对比
Model | Pr | Re | F1 | Training data | Training size |
---|---|---|---|---|---|
EQTransformer | 1.0 | 1.0 | 1.0 | Global | 1.2M |
CRED | 1.0 | 0.96 | 0.98 | Global | 1.2M |
DetNet | 1.0 | 0.89 | 0.94 | China | 30K |
Yews | 0.84 | 0.85 | 0.85 | Taiwan | 1.4M |
STA/LTA | 0.91 | 1.0 | 0.95 | — | — |
EQT和CRED都在STEAD训练但CRED效果不如EQT。DetNet相较于Yews在更小的训练集训练但效果更好,但二者都不如STA/LTA。
拾取的结果:
预测的到时和实际到时相差0.5s
内算作准确。
P波和S波的性能如下表所示:
表2. P波拾取结果对比
Model | μ | σ | Pr | Re | F1 | MAE | MAPE | Training data | Training size |
---|---|---|---|---|---|---|---|---|---|
EQTransformer | 0.00 | 0.03 | 0.99 | 0.99 | 0.99 | 0.01 | 0.00 | Global | 1.2M |
PhaseNet | -0.02 | 0.08 | 0.96 | 0.96 | 0.96 | 0.07 | 0.01 | North California | 780K |
GPD | 0.03 | 0.10 | 0.81 | 0.80 | 0.81 | 0.08 | 0.01 | South California | 4.5M |
PickNet | 0.00 | 0.09 | 0.81 | 0.49 | 0.61 | 0.07 | 0.02 | Japan | 740K |
PpkNet | -0.01 | 0.15 | 0.90 | 0.90 | 0.90 | 0.10 | 1.90 | Japan | 30K |
Yews | 0.07 | 0.13 | 0.54 | 0.72 | 0.61 | 0.09 | 0.02 | Taiwan | 1.4M |
Kurtosis | -0.03 | 0.09 | 0.94 | 0.79 | 0.86 | 0.08 | 0.01 | — | — |
FilterPicker | -0.01 | 0.08 | 0.95 | 0.82 | 0.88 | 0.14 | 0.02 | — | — |
AIC | -0.04 | 0.09 | 0.92 | 0.83 | 0.87 | 0.09 | 0.01 | — | — |
表3. S波拾取结果对比
Model | μ | σ | Pr | Re | F1 | MAE | MAPE | Training data | Training size |
---|---|---|---|---|---|---|---|---|---|
EQTransformer | 0.00 | 0.11 | 0.99 | 0.96 | 0.98 | 0.01 | 0.00 | Global | 1.2M |
PhaseNet | −0.02 | 0.11 | 0.96 | 0.93 | 0.94 | 0.09 | 0.01 | North California | 780K |
GPD | 0.03 | 0.14 | 0.81 | 0.83 | 0.82 | 0.10 | 0.01 | South California | 4.5M |
PickNet | 0.08 | 0.17 | 0.75 | 0.75 | 0.75 | 0.10 | 0.03 | Japan | 740K |
PpkNet | 0.02 | 0.15 | 1.00 | 0.91 | 0.95 | 0.10 | 1.85 | Japan | 30K |
Yews | −0.02 | 0.13 | 0.83 | 0.55 | 0.66 | 0.11 | 0.01 | Taiwan | 1.4M |
Kurtosis | −0.10 | 0.13 | 0.89 | 0.39 | 0.55 | 0.11 | 0.01 | — | — |
FilterPicker | −0.05 | 0.13 | 0.61 | 0.41 | 0.49 | 0.10 | 0.01 | — | — |
AIC | −0.07 | 0.15 | 0.87 | 0.51 | 0.64 | 0.12 | 0.02 | — | — |
对P波的提升比对S波的提升效果更好,可能因为S波拾取更难,训练集可能会有更多的打标签的错误。
Discussion
讨论部分主要包括以下内容:
模型性能优越的原因:
- 数据集质量和数量:文章强调了高质量和大规模的数据集在训练模型中的重要性。使用包含大量地震和噪声信号的数据集,确保了模型能够识别并分类各种地震波形。
- 网络架构设计:模型的结构设计对其性能有重大影响。特别是深度编码器和多任务解码器的使用,提高了模型的准确性和泛化能力。
- 注意力机制:全局和局部注意力机制的引入,使模型能够在地震波形中捕捉重要的时间段和特征,从而提高检测和震相拾取的准确性。
- 网络深度:深层网络结构能够学习更复杂的非线性关系,进一步提升了模型的性能。
- 数据增强技术:在训练过程中应用的数据增强技术(如加入噪声、随机移位等)提高了模型在不同数据条件下的鲁棒性和泛化能力。
误差分析与不确定性估计:
- 测试集结果的误差与数据的噪声水平有关。虽然未能明确找到输出概率变异性与拾取误差之间的直接关联,但通过不确定性估计,可以有效降低误报率(false positive rate),提高检测的可信度。
Methods
方法部分详细描述了研究的各个方面,具体包括:
-
相关工作:
- 综述了以前的研究,介绍了使用深度学习模型进行地震检测和震相拾取的方法,并与传统方法进行了比较。这些研究奠定了本文工作的基础。
-
网络设计:
- 多任务结构:网络架构包含一个深度编码器和三个独立的解码器。编码器负责处理输入的地震信号,生成高层次的表示和上下文信息。解码器则利用这些信息生成地震信号存在概率、P相和S相的概率序列。
- 注意力机制:模型引入了两级注意力机制:全局注意力用于识别地震信号,局部注意力用于识别地震信号中的不同震相(P相和S相)。
- 网络细节:网络由1D卷积层、双向和单向LSTM层、残差连接、前馈层和自注意层组成。网络总共有56层,但参数量仅约为372K,这得益于高效的网络设计。
-
数据与标签:
- 数据预处理:使用STanford EArthquake Dataset (STEAD)进行训练。STEAD是一个大规模的全球地震和噪声信号数据集,包含约100万条地震波形和30万条噪声波形。
- 标签生成:地震波形的标签包括从P相到S相的检测标签,以及P相和S相的具体时间点标签。不同标签形状(如方形、正态分布和三角形)的比较表明,三角形标签在拾取精度和损失函数方面表现最佳。
-
训练过程:
- 权重初始化和优化:使用Xavier正态初始化和ADAM优化器。学习率在训练过程中动态调整。
- 数据增强:通过在地震信号中加入次要地震信号、随机高斯噪声、随机移位等方法进行数据增强。这些增强技术在训练时以并行方式处理,提高了训练效率和模型鲁棒性。
- 训练停止条件:当验证损失在12个连续周期内不再下降时停止训练。
-
注意力机制:
- 可视化和解释:通过可视化注意力层的输出,展示了模型在不同任务中的注意力焦点。全局注意力层主要关注地震信号的存在,而局部注意力层则进一步聚焦于P相和S相的具体时间点。
-
不确定性估计:
- 方法:通过不确定性估计,可以更好地理解模型预测的可信度。这对于提高地震检测和震相拾取的可靠性和降低误报率非常重要。
这些方法和技术的综合应用,使得EQTransformer在地震检测和震相拾取任务中表现出色,为地震监测提供了一种高效、准确的解决方案。