使用Pandas读取数据

使用python的Pandas工具包读取数据

直接使用pd.read_csv()读取少量数据

import pandas as pd
data_path = '../DataWarehouse/TestData/test01.csv'

文件包含标题行

df = pd.read_csv(data_path, sep='\t', encoding='utf-8')

文件不包含标题行

header_name = ['col1', 'col2', 'col3', 'col4', 'col5']  # 指定标题行各个字段名称
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', header=None, names=header_name)

读取文件指定列

# usecols 可指定是第几列,也可直接指定列名称
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', usecols=[0,1,2])  # usecols指定第几列
df = pd.read_csv(data_path, sep='\t', encoding='utf-8', usecols=['col1', 'col3', 'col4'])  # usecols指定列名

指定特殊分隔符

# 如果文件的分隔符是特殊字符,如退格符等特殊符号,sep接受16进制字符
# '\x'的意思是16进制, 需用'\\x'对其中的'\'进行转义
# 7f和5e是16进制字符,分别代表退格符和'^'
df = pd.read_csv(data_path, sep='\\x7f\\x5e', encoding='utf-8')

读取大量数据(分批次读取)

读取单个大文件

# 使用pandas读取数据时,如果文件比较大,则可以使用参数chunksize对其进行分批次读取
# chunksize 是设置一次读取多少条记录,返回一个可迭代对象

df_chunk = pd.read_csv(data_path, sep='\t', encoding='utf-8', chunksize=1000000)

def get_chunk_data(df_chunk):
    chunks = []
    for chunk in df_chunk:
        # 每个chunk都是一个分批次读取出来的DataFrame
        chunks.append(chunk)
    # 使用panndas的concat函数,将分批次读取的DataFrame拼接起来
    # axis指定沿着哪个轴进行拼接: 0是按行拼接,1是按列拼接
    df_all = pd.concat(chunks, axis=0)
    # 删除chunks,释放内存
    del chunks
    return df_all

df_all = get_chunk_data(df_chunk) 

读取多个大文件

import os

def get_chunk_data(df_chunk):
    chunks = []
    for chunk in df_chunk:
        chunks.append(chunk)
    df_all = pd.concat(chunks, axis=0)
    del chunks
    return df_all

def concat_files(source_path):
    """
    Paramters
    ---------
    source_path: 需要读取的大文件所在文件夹路径
    
    Returns
    -------
    df_concat: 最终所有文件合并后的DataFrame
    """
    file_list = []
    for root, dirs, files in os.walk(source_path):
        for file in files:
            src_file = os.path.join(root, file)
            file_list.append(src_file)
    temp_df = []
    for file in file_list:
        df_chunk = pd.read_csv(file, sep='\t', encoding='utf-8', chunksize=1000000)
        df_chunk_concat = get_chunk_data(df_chunk)
        temp_df.append(df_chunk_concat)
    df_concat = pd.concat(temp_df, axis=0)
    del temp_df
    return df_concat
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值