将数据集类标签数字化

将数据集类标签数字化

(一)该数据集类标签在最后一列(直接数字化标签)

//打开旧文件
f = open('dataset/datingTestSet.txt','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/datingTestSet0.txt','w',encoding='utf-8')
//循环读取旧文件
for line in f:
    labels=['didntLike','smallDoses','largeDoses']
    new_labels=['1','2','3']
    i=0
    for label in labels:
        # 进行判断
        if label in line:
            print(new_labels[i])
            line=line.replace(label,new_labels[i])
            print(line)
            break
        i+=1
    // 如果不符合就正常的将文件中的内容读取并且输出到新文件中
    f_new.write(line)
f.close()
f_new.close()

备注:该数据集来自datingTestSet.txt
(二)该数据集类标签不在最后一列
此时,为了统一数据集格式便于后期处理,将类标签数字化并将类标签放到最后一列,然后写入新文件

//打开旧文件
f = open('dataset/letter-recognition.data','r',encoding='utf-8')
//打开新文件
f_new = open('dataset/letter-recognition0.data', 'w', encoding='utf-8')
//循环读取旧文件
for line in f:
    labels=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']
    new_labels=['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26']
    i=0
    for label in labels:
        // 进行判断
        if label in line:
            //删掉该字符
            line=line.replace(label+',','')
            //去掉首尾'\n','\r','\t',' '
            line=line.strip()
            //将数字化的标签添加到末尾
            line=line+','+new_labels[i]+'\n'
            break
        i+=1
    // 如果不符合就正常的将文件中的内容读取并且输出到新文件中
    f_new.write(line)
f.close()
f_new.close()

备注:该数据集来自letter-recognition.data

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值