Python数据处理(二)-txt文件指定数据提取处理

系列文章:

0、基本常用功能及其操作(本文操持更新)

1,20Gtxt文件提取并分类整理输出作图

2,数据的归类并处理(本文)

3,txt文件指定数据提取并可视化作图

4,上万行log数据提取并作图进阶版

5、上万行数据提取并分类进阶版

6、.......... (待定)

 

一,数据格式及需求

 有一个几十M的TXT文件,每一行都蕴含坐标轴,X,Y以及对应的数据,时间啊,电压电流等等,X坐标轴从0--107,Y坐标轴也是0---107,X,Y为一组,相同的X,Y的组数据放一起。最终放入excel表格,XY坐标,后面就说各个XY组的数据依次排列在行的后面。

二,分布实现需求

这个需求比较复杂,因为手动复制是很费时费力的,而且通过不好操作,所以需要分步骤实现我们的需求。

1,把X坐标相同的全部提取单独的文件中,X从0---107,所以我们会有107个文件

2,在各个文件里面,再去对Y进行分类排序,将Y相同的放一起

3,最后就简单了,107个文件,每个文件XY都按照预期放好了,

    那么我们只需要提取我们需要的数据,X,Y坐标,以及每一组的我们需要的值即可,然后放入excel文件

三,需求的各个步骤的实现

1,X的分类,这个很简单,只要把不同的X放入对应的TXT即可

def X_select(wafer_XY_input_txt,wafer_XY_output_folder):
    wafer_XY_output_txt = wafer_XY_output_folder + '/xvalue_'
    # 读取原始文本文件
    with open(wafer_XY_input_txt, "r") as file:
        lines = file.readlines()
    # 提取并存储符合条件的行
    for line in lines:
        match = re.search(r'--X:\s+(\d+)-', line)
        if match:
            x_value = int(match.group(1))
            if 1 <= x_value <= 107:
                file_name = wafer_XY_output_txt + str(x_value) + '.txt'
                with open(file_name, 'a') as file:
                    file.write(line)

注释:(1)只读方式打开需要处理的文件并存入缓存数据结构

           (2)循环读取并操作每一行

           (3)结合正则表达式,识别X的坐标为多少(我用是两个特定符号之间来缩小判断的数,当然可以有其他方法,空格也算分隔符,逗号在CSV中也算是一种分隔符)

           (4)从字符型转换为int类型并作数据,X坐标多少就写入对应的TXT文件

 

2,python进行0--107个txt文件的数据整理

 X已经分好类了,但是里面的Y坐标还是杂乱无章的并不是相同的Y都在一起,所以需要整理。

def Y_sort(wafer_XY_output_folder, X_START , X_END , XY_value_num):
    # ----2-----------整理Y值,相同放一起,Y从小到大
    import re
    from collections import defaultdict
    # 函数用于处理和重写单个文件
    def process_and_rewrite_file(filename):
        with open(filename, 'r') as file:
            lines = file.readlines()

        # 使用字典来存储相同数值的行,键为数值,值为行列表
        grouped_lines = defaultdict(list)

        # 读取并分组所有行
        for line in lines:
            match = re.search(r"Y: (.*?)--S", line)
            if match:
                value = match.group(1).strip()
                grouped_lines[value].append(line)

        # 写入新的整理过的数据到文件
        with open(filename, 'w') as file:
            for value in sorted(grouped_lines.keys(), key=float):  # 假设数值可以转化为浮点型并进行排序
                # 限制写入每个数值的前--12/18/7---个元素
                for line in grouped_lines[value][:XY_value_num]:
                    file.write(line)

    # 处理 xvalue_1.txt 到 xvalue_107.txt 文件                /1_2TD
    for i in range(X_START, X_END):
        process_and_rewrite_file(wafer_XY_output_folder + f"/xvalue_{i}.txt")

注释:

(1)打开文件存入缓存数据结构(这个在超大文件时不可用,详情见文章一),并定义字典

(2)正则表达式,提取Y值并作判断,每个Y坐标作为一个键,将这一行作为值存入字典

(3)最后打开原文件并写入字典数据覆盖

(4)最后实现从0---107个文件的顺序执行

3,数据处理并导出

 前面数据都归类整理好了,最后就是指定数据处理了,

我们需要X,Y坐标以及XY相同组的数据写到一起,比如X,Y相同的组有12个,18个,4个,等等都可以,需要提前看一下源文件(这个算是小的不太完美的地方),然后定义每一组有都少个数据

 同时X也未必只有0--107或者小于,或者大于,这个留了接口,可自动调整

(1)打开文件,提取数据到缓存数据结构

(2)处理每一组数据,提取第一行X,Y坐标,以及每一组的我们需要的值,电流,电压,时间等等

(3)提取的数据存入单元格内容的列表,并存入excel文件

(4)当然,数据可以作图或者,其他操作都可以,看情况

def XY_output_excel(wafer_XY_output_folder,wafer_XY_output_excel,X_START,X_END,XY_value_num):
    # # ----4----------最终成品,写到Excel文件中,并且X,Y分开写
    import re
    from openpyxl import Workbook
    # 创建Excel工作簿
    wb = Workbook()
    ws = wb.active
    # Excel文件名
    excel_file_name = wafer_XY_output_excel
    # 遍历所有文件
    for i in range(X_START, X_END):
        filename = wafer_XY_output_folder + f"/xvalue_{i}.txt"
        try:
            with open(filename, 'r') as file:
                lines = file.readlines()

                # 按组处理数据,每12行一组
                for j in range(0, len(lines), XY_value_num):
                    group_lines = lines[j:j + XY_value_num]

                    # 确保数据完整
                    if len(group_lines) < XY_value_num:
                        continue

                    # 提取X和Y的值
                    x_match = re.search(r'X: (.*?)-Y', group_lines[0])
                    y_match = re.search(r'Y: (.*?)--S', group_lines[0])

                    # 如果匹配成功
                    if x_match and y_match:
                        x_value = x_match.group(1).strip()
                        y_value = y_match.group(1).strip()

                        # 准备单元格内容列表
                        row_data = [x_value, y_value]

                        # 从每一行提取'--------'之后的数据
                        for line in group_lines:
                            value_match = re.search(r'--------(.*)', line)
                            if value_match:
                                value = value_match.group(1).strip()
                                row_data.append(value)
                        # 将键和值写入工作表的一行
                        ws.append(row_data)
        except FileNotFoundError:
            print(f"File {filename} not found. Skipping.")
    # 保存Excel文件
    wb.save(filename=excel_file_name)

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值