下载数据完整性检查

本人研究所需的数据从google drive下载,分多次下载过程中可能存在数据缺漏的问题。因此使用python编写程序检查下载数据的完整性。

整体思路如下:

下载的数据为nc格式,时间分辨率为三小时,因此每天分别有8个文件。文件命名格式如下

1. 从每个文件名中提起出天,存入数组c

2.  检查数组c中每个元素的个数是否为8,输出缺小时的天。去除c中的重复元素,获得namelist

3. 生成1-365天的数组numlist,输出namelist中不在numlist中的元素,即为缺失的天

完整代码如下:

import os
import numpy as np


def readname():
    filePath = 'J://MSWEP_3hours//2017'
    name = os.listdir(filePath)
    return name



if __name__ == "__main__":
    name = readname()
    c=[]
    lack_day=[]
    #取出文件名中的日放入数组
    for i in name:
        a=int(i[4:5])*100+int(i[5:6])*10+int(i[6:7])
        c.append(a)
        #print(i)
    #检查每日是否有8个文件
    for i in c:
        if c.count(i)!= 8:
            lack_day.append(i)
    print(set(lack_day))    #删除重复值
    print(len(set(lack_day)))   #统计缺失小时的日的数量

    namelist = list(set(c))
    #print(namelist)

    #通过1-365的数组,检查缺失的天
    numlist = list(range(1, 366))
    lacklist = np.setdiff1d(numlist, namelist)
    print(lacklist)
    print(len(lacklist))    #统计缺失数据的天数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值