Pandas数据入Doris库----Doris超级低配版

导入所需要的包,链接数据库

import time
import pandas as pd
import warnings,datetime
import pymysql
import os,glob
warnings.filterwarnings('ignore')  # 忽略掉一些红头警告

conn = pymysql.connect(host="you datebaes host", user="username", passwd="password", db="db_name", port=9030)
cursor = conn.cursor()

获取表中最大 ID ,因为搭建Doris的技术问题,无法实现ID自增

def get_max_id(datebase_name):
	mycursor.execute(f"select MAX(id) from <you_db_name>.{datebase_name};")
	result = mycursor.fetchall()
    return result[0][0]

获取指定文件夹下子文件夹的文件

folder_paths = r'C:\阿里妈妈'
# 获取文件夹下所有文件和文件夹的名字
filenames = os.listdir(folder_paths)
# 过滤出文件做拼接,生成列表
files = [os.path.join(folder_paths,file_name) for file_name in filenames]
# 循环列表中所有文件
for file in files:
    file_pathz = glob.glob(file+'/*')
    # 因为解压出来的是一个文件,如果多个文件需要再加个循环就行
    if len(file_pathz) == 1:
        shop_data(file_pathz[0])

计算时间差

# 使用Today-1天的时间减去传输过来的时间
def ex_date(s):
	# 格式化日期
    strp_s = datetime.datetime.strptime(s, '%Y-%m-%d')
    d_value = datetime.date.today() + datetime.timedelta(days=-1) - strp_s.date()
    return d_value.days

pandas处理数据表格

folder_path = "C:\阿里妈妈\内容营销短直联动_珍致旗舰店_2024-07-08\多多客服-客服数据-客服绩效数据-客服绩效详情.csv"
# 读取表格,个别需要进行指定编码格式
data = pd.read_csv(folder_path,encoding = 'gb2312')
# 根据自己所需,从路径中获取信息
shop_name = folder_path.split('\\')[2].split('_')[1]
# 由于需要存入数据库,所以字段名需要跟数据库中的字段对应,做个修改即可
data.rename(columns={'日期': 'RiQi', '场景ID': 'ChangJingId', '场景名字': 'ChangJingMingZi', '计划ID': 'JiHuaId',
                     '计划名字': 'JiHuaMingZi', '主体ID': 'ZhuTiId', '主体类型': 'ZhuTiLeiXing'}, inplace=True)
# 将日期做时间差处理,确保最新采集的数据
data['extratime'] = data['RiQi'].apply(lambda s: ex_date(s))
# 将所有NaN值改成0
data.fillna(value=0, inplace=True)
# 或将所有NaN值改成0
data.fillna(value='', inplace=True)
# 去除所有换行符
data.replace('\n', '', regex=True, inplace=True)
data.replace('\t', '', regex=True, inplace=True)
# 判断返回值,如果是NaN,说明数据库中没数据
if get_max_id(you_datebase_name) == None:
    time_id = 0
else:
    time_id = int(get_max_id(you_datebase_name))+1
# 根据表格数据量进行累加组成一个ID列表
id_list = [time_id+i for i in range(data.count()[0])]
# 自定义字段
data['id'] = id_list
data['shop_name'] = shop_name
# 将DataFrame表中的Key获取到
valuez = str(tuple(data.keys())).replace("'",'`')
# 规定格式
sql_text = f"INSERT INTO {datebase} {valuez} VALUES"
# 循环DataFrame每一列数据,进行拼接
for column_name, column_data in data.iterrows():
     sql_text += f"{tuple(column_data)},"
# 由于拼接后面有个逗号,需要把后面的逗号去掉后入库
cursor.execute(sql_text[:-1])
# 删除掉文件
os.remove(folder_path)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值