Pandas数据入Doris库----Doris超级低配版

最新推荐文章于 2024-08-09 16:25:22 发布

晓来谁染霜林醉！

最新推荐文章于 2024-08-09 16:25:22 发布

阅读量177

点赞数 7

文章标签： pandas

本文链接：https://blog.csdn.net/weixin_43572641/article/details/140298903

版权

Pandas + Doris 数据入库

导入所需要的包，链接数据库
获取表中最大 ID ，因为搭建Doris的技术问题，无法实现ID自增
获取指定文件夹下子文件夹的文件
计算时间差
pandas处理数据表格

导入所需要的包，链接数据库

import time
import pandas as pd
import warnings,datetime
import pymysql
import os,glob
warnings.filterwarnings('ignore')  # 忽略掉一些红头警告

conn = pymysql.connect(host="you datebaes host", user="username", passwd="password", db="db_name", port=9030)
cursor = conn.cursor()

获取表中最大 ID ，因为搭建Doris的技术问题，无法实现ID自增

def get_max_id(datebase_name):
	mycursor.execute(f"select MAX(id) from <you_db_name>.{datebase_name};")
	result = mycursor.fetchall()
    return result[0][0]

获取指定文件夹下子文件夹的文件

folder_paths = r'C:\阿里妈妈'
# 获取文件夹下所有文件和文件夹的名字
filenames = os.listdir(folder_paths)
# 过滤出文件做拼接，生成列表
files = [os.path.join(folder_paths,file_name) for file_name in filenames]
# 循环列表中所有文件
for file in files:
    file_pathz = glob.glob(file+'/*')
    # 因为解压出来的是一个文件，如果多个文件需要再加个循环就行
    if len(file_pathz) == 1:
        shop_data(file_pathz[0])

计算时间差

# 使用Today-1天的时间减去传输过来的时间
def ex_date(s):
	# 格式化日期
    strp_s = datetime.datetime.strptime(s, '%Y-%m-%d')
    d_value = datetime.date.today() + datetime.timedelta(days=-1) - strp_s.date()
    return d_value.days

pandas处理数据表格

folder_path = "C:\阿里妈妈\内容营销短直联动_珍致旗舰店_2024-07-08\多多客服-客服数据-客服绩效数据-客服绩效详情.csv"
# 读取表格，个别需要进行指定编码格式
data = pd.read_csv(folder_path,encoding = 'gb2312')
# 根据自己所需，从路径中获取信息
shop_name = folder_path.split('\\')[2].split('_')[1]
# 由于需要存入数据库，所以字段名需要跟数据库中的字段对应，做个修改即可
data.rename(columns={'日期': 'RiQi', '场景ID': 'ChangJingId', '场景名字': 'ChangJingMingZi', '计划ID': 'JiHuaId',
                     '计划名字': 'JiHuaMingZi', '主体ID': 'ZhuTiId', '主体类型': 'ZhuTiLeiXing'}, inplace=True)
# 将日期做时间差处理，确保最新采集的数据
data['extratime'] = data['RiQi'].apply(lambda s: ex_date(s))
# 将所有NaN值改成0
data.fillna(value=0, inplace=True)
# 或将所有NaN值改成0
data.fillna(value='', inplace=True)
# 去除所有换行符
data.replace('\n', '', regex=True, inplace=True)
data.replace('\t', '', regex=True, inplace=True)
# 判断返回值，如果是NaN，说明数据库中没数据
if get_max_id(you_datebase_name) == None:
    time_id = 0
else:
    time_id = int(get_max_id(you_datebase_name))+1
# 根据表格数据量进行累加组成一个ID列表
id_list = [time_id+i for i in range(data.count()[0])]
# 自定义字段
data['id'] = id_list
data['shop_name'] = shop_name
# 将DataFrame表中的Key获取到
valuez = str(tuple(data.keys())).replace("'",'`')
# 规定格式
sql_text = f"INSERT INTO {datebase} {valuez} VALUES"
# 循环DataFrame每一列数据，进行拼接
for column_name, column_data in data.iterrows():
     sql_text += f"{tuple(column_data)},"
# 由于拼接后面有个逗号，需要把后面的逗号去掉后入库
cursor.execute(sql_text[:-1])
# 删除掉文件
os.remove(folder_path)