Python数据处理（二）-txt文件指定数据提取处理

卡尔-TONY

已于 2024-03-07 21:06:18 修改

阅读量1.2k

点赞数 6

文章标签： python 开发语言 numpy pip 数据分析数据结构

于 2024-02-26 22:14:58 首次发布

本文链接：https://blog.csdn.net/weixin_56228140/article/details/136309037

版权

系列文章：

0、基本常用功能及其操作（本文操持更新）

1，20Gtxt文件提取并分类整理输出作图

2，数据的归类并处理(本文)

3，txt文件指定数据提取并可视化作图

4，上万行log数据提取并作图进阶版

5、上万行数据提取并分类进阶版

6、.......... （待定）

一，数据格式及需求

有一个几十M的TXT文件，每一行都蕴含坐标轴，X,Y以及对应的数据，时间啊，电压电流等等，X坐标轴从0--107,Y坐标轴也是0---107，X,Y为一组，相同的X,Y的组数据放一起。最终放入excel表格，XY坐标，后面就说各个XY组的数据依次排列在行的后面。

二，分布实现需求

这个需求比较复杂，因为手动复制是很费时费力的，而且通过不好操作，所以需要分步骤实现我们的需求。

1，把X坐标相同的全部提取单独的文件中，X从0---107，所以我们会有107个文件

2，在各个文件里面，再去对Y进行分类排序，将Y相同的放一起

3，最后就简单了，107个文件，每个文件XY都按照预期放好了，

那么我们只需要提取我们需要的数据，X,Y坐标，以及每一组的我们需要的值即可，然后放入excel文件

三，需求的各个步骤的实现

1，X的分类，这个很简单，只要把不同的X放入对应的TXT即可

def X_select(wafer_XY_input_txt,wafer_XY_output_folder):
    wafer_XY_output_txt = wafer_XY_output_folder + '/xvalue_'
    # 读取原始文本文件
    with open(wafer_XY_input_txt, "r") as file:
        lines = file.readlines()
    # 提取并存储符合条件的行
    for line in lines:
        match = re.search(r'--X:\s+(\d+)-', line)
        if match:
            x_value = int(match.group(1))
            if 1 <= x_value <= 107:
                file_name = wafer_XY_output_txt + str(x_value) + '.txt'
                with open(file_name, 'a') as file:
                    file.write(line)

注释：（1）只读方式打开需要处理的文件并存入缓存数据结构

（2）循环读取并操作每一行

（3）结合正则表达式，识别X的坐标为多少（我用是两个特定符号之间来缩小判断的数，当然可以有其他方法，空格也算分隔符，逗号在CSV中也算是一种分隔符）

（4）从字符型转换为int类型并作数据，X坐标多少就写入对应的TXT文件

2，python进行0--107个txt文件的数据整理

X已经分好类了，但是里面的Y坐标还是杂乱无章的并不是相同的Y都在一起，所以需要整理。

def Y_sort(wafer_XY_output_folder, X_START , X_END , XY_value_num):
    # ----2-----------整理Y值，相同放一起，Y从小到大
    import re
    from collections import defaultdict
    # 函数用于处理和重写单个文件
    def process_and_rewrite_file(filename):
        with open(filename, 'r') as file:
            lines = file.readlines()

        # 使用字典来存储相同数值的行，键为数值，值为行列表
        grouped_lines = defaultdict(list)

        # 读取并分组所有行
        for line in lines:
            match = re.search(r"Y: (.*?)--S", line)
            if match:
                value = match.group(1).strip()
                grouped_lines[value].append(line)

        # 写入新的整理过的数据到文件
        with open(filename, 'w') as file:
            for value in sorted(grouped_lines.keys(), key=float):  # 假设数值可以转化为浮点型并进行排序
                # 限制写入每个数值的前--12/18/7---个元素
                for line in grouped_lines[value][:XY_value_num]:
                    file.write(line)

    # 处理 xvalue_1.txt 到 xvalue_107.txt 文件                /1_2TD
    for i in range(X_START, X_END):
        process_and_rewrite_file(wafer_XY_output_folder + f"/xvalue_{i}.txt")

注释：

（1）打开文件存入缓存数据结构（这个在超大文件时不可用，详情见文章一），并定义字典

（2）正则表达式，提取Y值并作判断，每个Y坐标作为一个键，将这一行作为值存入字典

（3）最后打开原文件并写入字典数据覆盖

（4）最后实现从0---107个文件的顺序执行

3，数据处理并导出

前面数据都归类整理好了，最后就是指定数据处理了，

我们需要X，Y坐标以及XY相同组的数据写到一起，比如X,Y相同的组有12个，18个，4个，等等都可以，需要提前看一下源文件（这个算是小的不太完美的地方），然后定义每一组有都少个数据

同时X也未必只有0--107或者小于，或者大于，这个留了接口，可自动调整

（1）打开文件，提取数据到缓存数据结构

（2）处理每一组数据，提取第一行X,Y坐标，以及每一组的我们需要的值，电流，电压，时间等等

（3）提取的数据存入单元格内容的列表，并存入excel文件

（4）当然，数据可以作图或者，其他操作都可以，看情况

def XY_output_excel(wafer_XY_output_folder,wafer_XY_output_excel,X_START,X_END,XY_value_num):
    # # ----4----------最终成品，写到Excel文件中,并且X,Y分开写
    import re
    from openpyxl import Workbook
    # 创建Excel工作簿
    wb = Workbook()
    ws = wb.active
    # Excel文件名
    excel_file_name = wafer_XY_output_excel
    # 遍历所有文件
    for i in range(X_START, X_END):
        filename = wafer_XY_output_folder + f"/xvalue_{i}.txt"
        try:
            with open(filename, 'r') as file:
                lines = file.readlines()

                # 按组处理数据，每12行一组
                for j in range(0, len(lines), XY_value_num):
                    group_lines = lines[j:j + XY_value_num]

                    # 确保数据完整
                    if len(group_lines) < XY_value_num:
                        continue

                    # 提取X和Y的值
                    x_match = re.search(r'X: (.*?)-Y', group_lines[0])
                    y_match = re.search(r'Y: (.*?)--S', group_lines[0])

                    # 如果匹配成功
                    if x_match and y_match:
                        x_value = x_match.group(1).strip()
                        y_value = y_match.group(1).strip()

                        # 准备单元格内容列表
                        row_data = [x_value, y_value]

                        # 从每一行提取'--------'之后的数据
                        for line in group_lines:
                            value_match = re.search(r'--------(.*)', line)
                            if value_match:
                                value = value_match.group(1).strip()
                                row_data.append(value)
                        # 将键和值写入工作表的一行
                        ws.append(row_data)
        except FileNotFoundError:
            print(f"File {filename} not found. Skipping.")
    # 保存Excel文件
    wb.save(filename=excel_file_name)