深度学习文本预处理+基础学习+数据标注

本文介绍深度学习文本预处理,包括从.txt和.json文件读取数据并按特定格式输出,适用于paddleOCR的数据标准。同时,讨论了深度学习基础学习,如logistic和softmax回归的实现。此外,还涵盖了数据标注的重要环节。
摘要由CSDN通过智能技术生成

深度学习文本预处理

从.txt读取,按特定格式输出到.txt

这里我首先是从网上下载的ch4_training_images(训练数据集照片)和ch4_training_localization_transcription_gt 2(Label)文件,Label文件如下:
在这里插入图片描述
文本内容:前八个数是矩形标签框的四个顶点的坐标,最后为图片文本框标签内容
下面为具体代码内容:

import os
import numpy as np
import json

gt_dir = "/Users/yi/Desktop/icdar" # 文件夹目录
with open("/Users/yi/Desktop/ch4_training_images/label.txt", "w") as fo:
    for filename in os.listdir(gt_dir): # 遍历文件夹
        gt_path = os.path.join(gt_dir, filename)
        if not os.path.isfile(gt_path):
            continue
        name, suffix = os.path.splitext(filename)
        if suffix.lower() != '.txt': # 判断是否为.txt文件
            continue
        img_filename = name[3:] + '.jpg'

        with open(gt_path, 'r', encoding='utf-8-sig') as fi:
            annot_ppocr = []
            for i, line in enumerate(fi):
                arr = line.strip().split(',') # strip()为删除每行后面的换行符,然后再分割
                if len(arr) < 9:
                    continue
                print(i, line, arr)
                pts = [int(x) for x in arr[:8]] # 获取前八个数
                print(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值