Python读取文件并写入到MaxCompute表

最新推荐文章于 2024-06-04 14:54:42 发布

XueminXu

最新推荐文章于 2024-06-04 14:54:42 发布

阅读量609

点赞数 1

分类专栏： Python 文章标签： python odps MaxCompute DataFrame pandas

本文链接：https://blog.csdn.net/xufox/article/details/136027146

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python和DataWorks中的PyODPS库从FTP或远程FTP文件读取数据，转换字段类型后，将数据写入MaxCompute表的指定分区，包括自定义方式和persist方式的详细步骤。

摘要由CSDN通过智能技术生成

使用Python，或者使用DataWorks创建PyODPS3节点，读取FTP或者远程FTP文件，然后写入到MaxCompute指定表的分区中。使用的库若未安装，可用pip install方式安装。代码如下：

from odps import ODPS
from odps.df import DataFrame
import numpy as np
import pandas as pd
from odps.df import output


o = ODPS('<odps-key>', 'odps-secret', 'project-name', endpoint='endpoint-address')
t = o.get_table('tmp_xxm_test')

my_file = '/Downloads/tmp_xxm_test.csv'

field_types = {
    '账户ID': object,
    '点击数': np.float64,  # np.float64
    '花费': object,
    '时间': object
}
# 先读取数据然后设定类型
data_src = pd.read_csv(my_file, header=0, dtype=field_types)

# 修改数据类型，可取代指定每列的类型
# data_src['my_num'] = data_src['my_num'].astype('Int32')

data_1 = pd.read_csv('/Downloads/tmp_xxm_test_1.csv', header=0, dtype=field_types)
# 两个DataFrame合并，即UNION
df = pd.concat([data_src, data_1], axis=0, join='outer', ignore_index=False)


'''
方式1：自定义方式写入，该方式可以写入到指定分区中，None表示写入null
'''
with t.open_writer(partition='ds=20231128', create_partition=True) as writer:
    records = data_src.apply(lambda x: [
        None if pd.isna(x['my_id']) else x['my_id'],
        None if pd.isna(x['my_num']) else x['my_num'],
        None if pd.isna(x['my_amt']) else x['my_amt'],
        None if pd.isna(x['my_time']) else x['my_time']
    ], axis='columns').tolist()
    print(records)
    writer.write(records)

print('sucess.')

'''
方式2：persist方式写入
1. 该方式写入时，目标表不要创建整数字段，因为如果整数字段为np.float的NaN或者pd的NA则无法转为integer。
2. 若data_src中使用'Int64'则创建DataFrame会报错无法识别Int64。
3. 原df的列名在目标表都必须存在，若df中列名缺少目标表的列则该字段填充null。
4. 输出按照列名去输出，不是按照顺序，顺序不一致没关系，但建议一致。
'''
df = DataFrame(data_src)
print(df)
'''
overwrite参数表示是否覆盖，默认True；drop_partition表示是否删除存在的分区数据，默认false。
drop_partition设为False仍然会覆盖已存在的指定分区，overwrite设为False才会Append方式写入。
'''
df.persist('tmp_xxm_test', partition='ds=20231128', drop_partition=True, create_partition=True, odps=o)