Python-爬虫-凯斯西储轴承数据下载

1.背景

久闻凯斯西储数据集大名,最近开了个新坑,打算用CWRU数据做一下验证,网上简单搜了一下没有找到现成的数据,遂前往官网手动下载然后手动命名。在下载十几个数据之后,忽然想起为什么不用python来下载?

本文提供了python下载CWRU数据的程序,以及汇总数据。


(后话)下载完才发现有几个百度云资源,这里一并整理在“4.数据集下载”中。

2.工具

python+re+request

3.程序

import requests
import os
import re

def downloadFile(url, path, file_name, type = 'mat'):
    r = requests.get(url)
    with open("%s/%s.%s"%(path,file_name,type), "wb") as f:
        f.write(r.content)

def page_crawler(url):
    headers = {
        'user_agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.58'
    }
    dir_path = os.path.dirname(os.path.abspath(__file__))+'\\'+os.path.split(url)[-1]
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
    page = requests.get(url,headers=headers)
    page.encoding = 'utf-8'
    pattern = re.compile(r'<a href=.*</a>')
    for i in [i for i in pattern.findall(page.text) if '.mat' in i]:
        file_url = re.findall(r'(?<=href=").*?(?=">)',i)[0]
        file_name = re.findall(r'(?<=>).*(?=</a>)',i)[0]
        downloadFile(file_url, dir_path, file_name)

if __name__ == '__main__':
    urls = [
        'https://engineering.case.edu/bearingdatacenter/normal-baseline-data',
        'https://engineering.case.edu/bearingdatacenter/12k-fan-end-bearing-fault-data',
        'https://engineering.case.edu/bearingdatacenter/12k-drive-end-bearing-fault-data',
        'https://engineering.case.edu/bearingdatacenter/48k-drive-end-bearing-fault-data'
    ]
    [page_crawler(i) for i in urls]

4.数据集下载

阿里云:

https://www.alipan.com/s/xkPSvKfFzer

提取码: b1u8

(mat和压缩文件都分享不了,把.mat改成了.txt,下载下来之后可以运行bat文件批量改回去,不放心的可以记事本打开bat文件检查一下内容,就是一些相对路径移动和文件重命名)

蓝奏云:

https://wwk.lanzoue.com/b0ny54e8j
密码:9hz7

百度云:

凯斯西储轴承数据集解读与整理 - 知乎查看了好多使用该数据集的论文和博客,从官方网站下载的数据集本身也存在问题,其有个别mat文件存放在错误的文件夹中。 为方便使用该数据集,我对整个数据集重新进行了解析和编码。 下载地址: CRWU凯斯西储数据集…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/448210993

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
西储轴承数据集是一个用于预测轴承故障的数据集,CNN是卷积神经网络的缩写,是一种常用于图像处理和模式识别的深度学习算法。 在西储轴承数据集的预处理过程中,可以采取以下步骤: 1. 数据收集和清洗:从西储轴承数据集中获取原始数据,并进行清洗,去除无效或缺失的数据。 2. 数据标准化:对原始数据进行标准化处理,使得数据在一定的范围内,可以提高神经网络的训练效果。 3. 数据划分:将数据集划分为训练集、验证集和测试集。训练集用于训练CNN模型,验证集用于调整模型的超参数和防止过拟合,测试集用于评估模型的性能。 4. 数据增强:通过对原始数据进行旋转、平移、缩放等操作,增加数据的多样性和数量,同时可以帮助模型更好地泛化和识别轴承故障。 5. 数据转换:将预处理后的数据转换为合适的输入形式,例如将数据转换为图像格式(如灰度图像或彩色图像),或者将数据转换为时域、频域等特征表示。 6. 模型训练:使用预处理后的数据集训练CNN模型,可以选择不同的网络结构(如LeNet、ResNet等),并根据具体的问题进行选择和调整。 7. 模型评估和调优:使用测试集评估训练好的模型的性能,并根据评估结果进行模型调优,例如调整模型的超参数、增加网络层数或调整激活函数等。 通过以上步骤,我们可以对西储轴承数据集进行预处理,并使用CNN模型进行有效的故障预测和识别。这样可以提高轴承的可靠性和使用寿命,减少由于故障引起的停机和维修成本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值