温度数据特征值处理

___Y1

已于 2024-05-23 13:25:25 修改

阅读量138

点赞数 2

分类专栏：气象数据处理文章标签： python 爬虫开发语言

于 2024-05-19 12:22:39 首次发布

本文链接：https://blog.csdn.net/weixin_44259522/article/details/139040936

版权

气象数据处理专栏收录该内容

50 篇文章 2 订阅

订阅专栏

import pandas as pd
import os

# 设置文件夹路径
folder_path = r'D:\气象数据\气象数据\1951-2018\气温\新疆'

# 获取文件夹下所有.xlsx文件的路径
file_paths = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.xlsx')]

# 循环处理每个文件
for file_path in file_paths:
    # 读取Excel文件
    df = pd.read_excel(file_path)
    
    # 处理异常值32766
    for column in ['平均气温', '日最高气温', '日最低气温']:
        df[column] = df[column].replace(32766, pd.NA)
        # 使用前一行和后一行的平均值替换32766
        df[column] = df[column].fillna((df[column].shift(1) + df[column].shift(-1)) / 2)
    
    # 提取文件名（不带路径）
    file_name = os.path.basename(file_path)
    
    # 保存处理后的数据，路径为原路径加上'_processed'后缀
    output_file_path = os.path.join(folder_path, file_name.replace('.xlsx', '_processed.xlsx'))
    df.to_excel(output_file_path, index=False)
    
    print(f"文件 {file_name} 处理完成，已保存为 {output_file_path}")

这段代码是用来处理一个文件夹中的多个 Excel 文件，主要完成以下任务：

1. 设置文件夹路径。
2. 获取文件夹下所有以 `.xlsx` 结尾的文件的路径。
3. 对每个文件进行处理：
a. 读取 Excel 文件为 Pandas DataFrame。
b. 处理异常值，将所有值为 32766 的数据替换为 Pandas 中的缺失值（`pd.NA`）。
c. 使用每个异常值的前一行和后一行的平均值来替换这些异常值。
d. 提取文件名（不带路径）。
e. 保存处理后的数据为新的 Excel 文件，文件名在原文件名基础上加上 `_processed` 后缀。

现在我们逐行解释这段代码并进行示例说明：

```python
import pandas as pd
import os
```

这段代码导入了 Pandas 库和 Python 的 os 模块，分别用于数据处理和文件操作。

```python
# 设置文件夹路径
folder_path = r'D:\气象数据\气象数据\1951-2018\气温\新疆'
```

这里设置了文件夹路径，你需要将路径修改为你存储文件的文件夹路径。

```python
# 获取文件夹下所有.xlsx文件的路径
file_paths = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.xlsx')]
```

这行代码使用列表推导式获取了文件夹下所有以 `.xlsx` 结尾的文件的完整路径。

```python
# 循环处理每个文件
for file_path in file_paths:
    # 读取Excel文件
    df = pd.read_excel(file_path)

    # 处理异常值32766
    for column in ['平均气温', '日最高气温', '日最低气温']:
        df[column] = df[column].replace(32766, pd.NA)
        # 使用前一行和后一行的平均值替换32766
        df[column] = df[column].fillna((df[column].shift(1) + df[column].shift(-1)) / 2)

    # 提取文件名（不带路径）
    file_name = os.path.basename(file_path)

    # 保存处理后的数据，路径为原路径加上'_processed'后缀
    output_file_path = os.path.join(folder_path, file_name.replace('.xlsx', '_processed.xlsx'))
    df.to_excel(output_file_path, index=False)

    print(f"文件 {file_name} 处理完成，已保存为 {output_file_path}")
```

这部分是主要的处理循环。首先，它循环遍历了所有的文件路径。对于每个文件，它执行以下步骤：

- 通过 `pd.read_excel()` 函数读取 Excel 文件并将其转换为 Pandas DataFrame。
- 对于指定的列（'平均气温'、'日最高气温'、'日最低气温'），将所有值为 32766 的数据替换为 Pandas 中的缺失值（`pd.NA`），然后使用每个异常值的前一行和后一行的平均值来替换这些异常值。
- 提取文件名（不带路径）。
- 构建处理后文件的保存路径，将文件名后缀替换为 `_processed.xlsx`。
- 使用 `df.to_excel()` 函数将处理后的 DataFrame 保存为 Excel 文件。
- 打印处理完成的信息，包括原文件名和处理后文件的路径。

示例说明：假设你的文件夹中有两个 Excel 文件，分别是 `file1.xlsx` 和 `file2.xlsx`。这两个文件中包含三列数据：'平均气温'、'日最高气温'、'日最低气温'。如果在这些数据中发现了值为 32766 的异常值，那么这些异常值将被替换为相邻两行对应列的平均值，并将处理后的数据保存为新的 Excel 文件。

import pandas as pd
import os

# 设置文件夹路径
folder_path = r'D:\气象数据\气象数据\1951-2018\气温\新疆'

# 获取文件夹下所有.xlsx文件的路径
file_paths = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.xlsx')]

# 循环处理每个文件
for file_path in file_paths:
    # 读取Excel文件
    df = pd.read_excel(file_path)

    # 处理异常值32766
    for column in ['平均气温', '日最高气温', '日最低气温']:
        df[column] = df[column].replace(32766, pd.NA)
        # 使用前一行和后一行的平均值替换32766
        df[column] = df[column].fillna((df[column].shift(1) + df[column].shift(-1)) / 2)

    # 提取文件名（不带路径）
    file_name = os.path.basename(file_path)

    # 保存处理后的数据，路径为原路径加上'_processed'后缀
    output_file_path = os.path.join(folder_path, file_name.replace('.xlsx', '_processed.xlsx'))
    df.to_excel(output_file_path, index=False)

    print(f"文件 {file_name} 处理完成，已保存为 {output_file_path}")