使用Pandas读取数据

最新推荐文章于 2021-12-20 23:45:05 发布

yangyang_0721

最新推荐文章于 2021-12-20 23:45:05 发布

阅读量1.3k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/yangyang_0721/article/details/103635456

版权

使用python的Pandas工具包读取数据

直接使用pd.read_csv()读取少量数据

import pandas as pd
data_path = '../DataWarehouse/TestData/test01.csv'

文件包含标题行

df = pd.read_csv(data_path, sep='\t', encoding='utf-8')

文件不包含标题行

header_name = ['col1', 'col2', 'col3', 'col4', 'col5']  # 指定标题行各个字段名称
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', header=None, names=header_name)

读取文件指定列

# usecols 可指定是第几列,也可直接指定列名称
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', usecols=[0,1,2])  # usecols指定第几列
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', usecols=['col1', 'col3', 'col4'])  # usecols指定列名

指定特殊分隔符

# 如果文件的分隔符是特殊字符,如退格符等特殊符号,sep接受16进制字符
# '\x'的意思是16进制, 需用'\\x'对其中的'\'进行转义
# 7f和5e是16进制字符,分别代表退格符和'^'
df = pd.read_csv(data_path, sep='\\x7f\\x5e', encoding='utf-8')

读取大量数据(分批次读取)

读取单个大文件

# 使用pandas读取数据时,如果文件比较大,则可以使用参数chunksize对其进行分批次读取
# chunksize 是设置一次读取多少条记录,返回一个可迭代对象

df_chunk = pd.read_csv(data_path, sep='\t', encoding='utf-8', chunksize=1000000)

def get_chunk_data(df_chunk):
    chunks = []
    for chunk in df_chunk:
        # 每个chunk都是一个分批次读取出来的DataFrame
        chunks.append(chunk)
    # 使用panndas的concat函数,将分批次读取的DataFrame拼接起来
    # axis指定沿着哪个轴进行拼接: 0是按行拼接,1是按列拼接
    df_all = pd.concat(chunks, axis=0)
    # 删除chunks,释放内存
    del chunks
    return df_all

df_all = get_chunk_data(df_chunk)

读取多个大文件

import os

def get_chunk_data(df_chunk):
    chunks = []
    for chunk in df_chunk:
        chunks.append(chunk)
    df_all = pd.concat(chunks, axis=0)
    del chunks
    return df_all

def concat_files(source_path):
    """
    Paramters
    ---------
    source_path: 需要读取的大文件所在文件夹路径
    
    Returns
    -------
    df_concat: 最终所有文件合并后的DataFrame
    """
    file_list = []
    for root, dirs, files in os.walk(source_path):
        for file in files:
            src_file = os.path.join(root, file)
            file_list.append(src_file)
    temp_df = []
    for file in file_list:
        df_chunk = pd.read_csv(file, sep='\t', encoding='utf-8', chunksize=1000000)
        df_chunk_concat = get_chunk_data(df_chunk)
        temp_df.append(df_chunk_concat)
    df_concat = pd.concat(temp_df, axis=0)
    del temp_df
    return df_concat

yangyang_0721

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用Pandas读取数据

使用python的Pandas工具包读取数据直接使用pd.read_csv()读取少量数据import pandas as pddata_path = '../DataWarehouse/TestData/test01.csv'文件包含标题行df = pd.read_csv(data_path, sep='\t', encoding='utf-8')文件不包含标题行header_...
复制链接

扫一扫