1.1 数据分块读取
import pandas as pd
chunk_size = 100000 # 每次读取10万行数据
chunks = pd.read_csv('large_dataset.csv', chunksize=chunk_size)
for chunk in chunks:
# 对每个数据块进行处理
process_data(chunk)
1.2 批量处理与合并
在处理完每个数据块后,可以将结果合并起来,避免一次性处理整个数据集。
result = pd.DataFrame()
for chunk in chunks:
processed_chunk = process_data(chunk)
result = pd.concat([result, processed_chunk])
二、利用NumPy加速计算
2.1 数据转换为NumPy数组
NumPy 是一个高性能的科学计算库,适用于大规模数据的高效运算。将数据转换为NumPy数组,可以大幅提升计算速度。
import numpy as np
data = pd.read_csv('large_dataset.csv')
numpy_array = data.to_numpy()
2.2 使用NumPy进行矢量化运算
矢量化运算是NumPy的优势之一,它允许我们对整个数组进行操作,而不需要使用显式的循环。
# 假设我们需要对每一列进行标准化处理
mean = np.mean(numpy_array, axis=0)
std = np.std(numpy_array, axis=0)
normalized_data = (numpy_array - mean) / std
1846

被折叠的 条评论
为什么被折叠?



