Python数据处理（三）-txt文件指定数据提取并可视化作图

卡尔-TONY

已于 2024-03-07 21:06:53 修改

阅读量1.1k

点赞数 3

文章标签： python 开发语言

于 2024-02-27 19:28:56 首次发布

本文链接：https://blog.csdn.net/weixin_56228140/article/details/136329777

版权

系列文章：

0、基本常用功能及其操作（本文操持更新）

1，20G文件，分类，放入不同文件，每个单独处理

2，数据的归类并处理

3，txt文件指定数据提取并可视化作图（本文）

4，上万行log数据提取并作图进阶版

5、上万行数据提取并分类进阶版

6、.......... （待定）

一，数据格式以及需求

作为测试工程师，面对这种海量的数据，我们周末提取指定位置的数据并可视化其变化规律呢，excel当然是首选，方便快捷。但是那种几十万行甚至更多的数据的时候，手动操作就捉襟见肘了。

于是我们需要python来自动化操作并完成。

1，有的数据我们直接提取后不需要处理即可全部作图

2，有的数据，我们提取后，还需要分组（16，256等等），求最大最小，以及平均值再作图

二，分布实现需求

这个需求比较简单，思路简单清晰。

1，我们需要时间或者其他数据，正则表达式提取（提取方式有很多种，正则表达式只是其一）

2，提取的数据存入python的数据结构--列表（就能满足功能要求）

3，数据处理

4，作图

三，各个步骤

一，提取数据后直接作图

import matplotlib.pyplot as plt

# 准备存储提取数据的列表
times = []

# 打开文本文件并读取每一行
with open('./log/be_cycling_tBE.txt', 'r') as file:
    for line in file:
        # 找到"Time=&"和"&mS"之间的字符串
        start_index = line.find("Time=&")
        end_index = line.find("&mS", start_index)
        #start_index = line.find("&]=&")
        #end_index = line.find("&mS=", start_index)
        if start_index != -1 and end_index != -1:
            # 提取时间数据
            time_data = line[start_index + len("Time=&"):end_index].strip()

            # 将时间数据转换为数字并添加到列表中
            try:
                time_value = float(time_data)
                times.append(time_value)
            except ValueError:
                # 数据转换失败时忽略错误
                continue

# 使用matplotlib绘制散点图
plt.scatter(range(len(times)), times, marker='.', color='blue')

# 设置图表标题和轴标签
plt.title('Venezia_100K_blk64_time')
plt.xlabel('Line Number')
plt.ylabel('Time (ms)')

# 显示图表
plt.show()

注释:

1，打开指定文件，并申明列表

2，for循环读取每一行数据，并作相应的数据处理

3，正则表达式，提取我们需要的指定数据并添加到列表中，同时获取列表的长度方便后面作图

4，直接用python的库函数，绘制散点图，没有对应库的，打开终端安装

5，作图时可在图上写出一些标记

二，提取数据后处理后再作图

这个就是提取完数据后需要处理过后再作图，比如下面的是提取完数据后，以256个数据为一组，求平均值和最值。

import matplotlib.pyplot as plt

def process_chunk(chunk):
    """辅助函数，用于处理和分析一个数据块 (即16个值)."""
    # 将字符串值转换为浮点数
    float_chunk = [float(x) for x in chunk]
    # 计算最大值、最小值和平均值
    max_val = max(float_chunk)
    min_val = min(float_chunk)
    avg_val = sum(float_chunk) / len(float_chunk)
    return (max_val, min_val, avg_val)


# 初始化列表用于存储各个分组的最大值、最小值和平均值
max_vals, min_vals, avg_vals = [], [], []

# 定义计数器以跟踪当前处理的行数
counter = 0
# 定义一个临时列表存储当前正在处理的值组
current_chunk = []

# 打开文本文件并逐行读取
with open('./log/PP_TIME.txt', 'r') as file:
    for line in file:
        # 查找 "&]=&" 和 "&mS" 之间的字符串
        start_index = line.find("&]=&")
        end_index = line.find("&mS", start_index)

        if start_index != -1 and end_index != -1:
            # 提取字符串并去掉空格
            time_data = line[start_index + len("&]=&"):end_index].strip()

            # 尝试将字符串转换为浮点数
            try:
                current_chunk.append(time_data)
            except ValueError:
                # 当转换失败时，忽略这个数据
                continue

            # 检查是否已收集了16个数据
            if len(current_chunk) == 256:
                max_val, min_val, avg_val = process_chunk(current_chunk)
                max_vals.append(max_val)
                min_vals.append(min_val)
                avg_vals.append(avg_val)
                # 清空当前的值组，为下一组数据做准备
                current_chunk = []

        # 更新计数器
        counter += 1
        # 如果需要可以打印进度
        # print(f'Processed {counter} lines...')

# 散点图数据为每组的最大值、最小值和平均值
plt.scatter(range(len(max_vals)), max_vals, color='red', label='Max', marker='o')
plt.scatter(range(len(min_vals)), min_vals, color='blue', label='Min', marker='x')
plt.scatter(range(len(avg_vals)), avg_vals, color='green', label='Avg', marker='^')

# 设置图表的标题和图例
plt.title('XXXXXXXXXXXXXXXXXXX')
plt.xlabel('Group Number')
plt.ylabel('Value')
plt.legend()

# 显示图表
plt.show()

注释

1，定义一个小函数，子函数，用来单独处理每一组的数据，最大最小和平均值

2，回归上面的问题中，打开文件并申明定义列表，循环读取每一行

3，正则表达式，提取指定对应数据

4，用前面定义的子函数处理列表中的数据，每一组处理完记得清空以便于下一组

5，作图，同时可以加上需要的各种坐标信息，标题等。