不平衡数据集的获取

最新推荐文章于 2022-10-26 22:47:45 发布

学渣研究僧3

最新推荐文章于 2022-10-26 22:47:45 发布

阅读量238

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_44539090/article/details/115186122

版权

数据不平衡故障诊断数据扩充 matplotlib numpy

关键词由CSDN通过智能技术生成

python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

from bao import *
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import matplotlib.font_manager as fm
myfont=fm.FontProperties(fname='C:/Windows/Fonts/msyh.ttc')
np.random.seed(668)
#random_state = 2
df = pd.read_csv(
'C:\\Users\\宝荣\\Desktop\\数据\\zhiyintu.csv')
X2=df.iloc[:,4:6]   #比值系数 
X3=df.iloc[:,8:11]  #单位向量
y1=df['guzhang'] 
        


def bupinghengdu(y,k):#len(y)控制待生成的不平衡个数
    T1 = []           #k控制不平衡度的偏移，避免np.random.
    i=0               #randn生成像0.02这种数据，
    while i<len(y):   #循环生成不平衡度，避免出现0值
        a=abs(np.random.randn())+k
        if a==0:
            continue
        else:
            T1.append(a)
            i=i+1
    return T1
T = bupinghengdu(y1,0.2)        

datasets =[]
def shuju1(J,T):#j控制不考虑数据不平衡时数据扩充量的大小
    XD=[]       #T控制每个类别数据不平衡的比例
    yD=[]  
    for i,h in zip(range(len(y1)),T):
        j=round(J*h)
        XX=X2[i:i+1]
        yy=y1[i:i+1]
        XXX = (np.tile(np.array(XX),(j,1)) + 
             abs(np.tile(np.array(XX),(j,1)))*
               0.075*np.random.randn(1*j,2))
        yyy = np.tile(np.array(yy),(j)) 
        XD.append(XXX)
        yD.append(yyy)
        data=(XXX,yyy)
        datasets.append(data)
    XXXXw=(np.r_[#将每一类的故障数据集合到一起
                 XD[0],XD[1],XD[2],XD[3],XD[4],
                 XD[5],XD[6],XD[7],XD[8],XD[9],
                  XD[10],XD[11],XD[12]] ) 
    yyyyw=(np.r_[
                 yD[0],yD[1],yD[2],yD[3],yD[4],
                 yD[5],yD[6],yD[7],yD[8],yD[9],
                 yD[10],yD[11],yD[12]
                 ])
    return XXXXw,yyyyw,datasets

XXXX,yyyy,datasets=shuju1(100,T)
print("\n扩充的训练数据量为：{}".format(len(XXXX)))     



def huitu(YY):
    s = set(YY)#去除重复元素后，看数据有哪些值
    dict1={}
    for i in s:
        j = YY.tolist().count(i)#计算每个元素数目
        dict1[i] = j     #将元素和其数目以字典形式储存
    #print(dict1)
    #print(len(dict1))
    A=[]
    B=[]
    for i in dict1:
        A.append(i)
        B.append(dict1[i])
    plt.figure(figsize=(23,12.5))
    for i,j in zip(A,B):
        plt.text(i,j,(j),fontsize=35) 
    plt.bar(A,B,align='center',ecolor='g',
            color='#A9A9A9',label='各类别故障个数')
    plt.legend(prop=myfont,loc='upper center')
    plt.scatter(A,B,color='r',lw=3, marker='o')
    plt.rcParams.update({'font.size': 30}) 
    plt.xticks(np.arange(1,14),
    ['故障1','故障2','故障3','故障4','故障5'
     ,'故障6','故障7','故障8','故障9','故障10'
     ,'故障11','故障12','故障13'],rotation=45)
huitu(yyyy)

在这里插入图片描述