Kaggle——‘LANL Earthquake Prediction‘

一. 项目介绍及EDA:

    1. 训练输入数据由一个超过6.29亿行的声学信号组成。每个声信号值都与地震发生的时间有关,每个声学信号都与地震的发生时间有关;测试集含有2624个子集组成,每个子集中含有15万个样本,与测试集不同的是这些样本是长期从地震中采集出来的,因此需要检查15万个测试样本中的数据;
    2. 训练样本的采样频率是4MHz,从原始数据间隔100个取一个样本点绘制绘制时间序列图。从图中发现,当time_to_failure降低到0附近时,声波信号产生了大幅震荡,代表发生地震。在地震发生中间也会产生数据振荡幅度较大的情况,因此可以得知信号的标准偏差可能是一个有用的预测指标。
    3. 绘图发现训练集中一共产生了16次地震,当time_to_failure降低到0附近时发生地震,继而再次跳为极大值,其中含有15次完整的信号斜坡。地震发生时产生较大的信号尖峰,但在非地震时期也有信号尖峰的产生。仅有15次的完整地震波形用来预测地震可能发生时间,这是本次比赛的一个难度。
在这里插入图片描述
    4. 绘制故障前200000个样本点,故障后30000个样本点,从图像中发现故障前信号均含有大尖峰。对比于地震的全部时长,150k的样本点是比较短的。如果将训练集分为150k每块,那么4194个数据块当中仅含有16块数据块,内部是含有高值尖峰的,比例大概是0.38%。

    5. 傅立叶变换及滤波:
滤波器的工作原理是:当信号与噪声分布在不同频带中时,可以在频域中实现信号分离。

  • spicy.signal.butter(N,Wn,btype,) 巴特沃斯滤波器是常用的模拟滤波器,在其通频带内的频率响应曲线最大限度的平坦无起伏,而在阻频带则下降为0。计算N阶Butter数字滤波器系统函数分子分母多项式的系数向量。
    其中,N表示滤波器的阶数,根据衰减度求滤波器的阶数,N越大,通带和阻带的近似行越好,但是过渡带也会越抖,计算速度也会降低;Wn归一化截止频率, W n = 2 ∗ 截 止 频 率 / 采 样 频 率 Wn=2*截止频率/采样频率 Wn=2/;默认为低通滤波器。参数N和Wn的值可以通过scipy.signal.buttord(wp,ws,gpass,gstop,analog=False)进行计算,输入带通、带阻等信息,会自动输出最小的滤波器阶数。
  • scipy.signal.lfilter(b,a,x,axis,zi)使用IIR(无限冲激响应滤波器)或FIR(有限冲激响应)滤波器沿一维过滤数据。
  • np.fft.fft()对滤波后的数据进行傅立叶变换,实际上是DFT(实际上使用的是谨慎傅立叶变换)。
    傅立叶原理:任何连续测量的时序或信号都能够表示为不同频了的正弦波信号的无限叠加。根据直接测量得到的原始信号,采用累加的方式计算信号中不同正弦波的频率、幅值和相位。时域的信号在经过傅立叶变换的分解之后,就变成不同正弦波信号的叠加,然后分析这些正弦波的频率,就将时域的问题转移到频域当中,就能够看出其中的特征。使用FFT代替DFT能够降低计算量。
  • scipy.signal.windows.hann(M,sym=True)
    为了防止FFT运算后产生的谱线泄漏问题,增加了窗函数。在此选择了汉宁窗(Hann)测试信号中包含多个频率分量,频谱表现比较复杂,关心频率点而非关注能量大小,汉宁窗是很好的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值