【数据清洗】将表格中的一列纯数字符串转化为日期时间格式

文章讲述了如何使用pandas库处理Excel文件中的一列纯数字时间数据,将其转换为日期时间格式。首先通过pd.read_excel读取数据,然后用astype将数据类型转化为字符串并去除换行符。接着使用pd.to_datetime进行时间格式转化,最后尝试将转换后的时间数据保存回Excel文件。
摘要由CSDN通过智能技术生成

思路:

首先是要做个时间转换,那么datatime肯定跑不了,网上其他文章都是在讲怎么转化的,但是没有人讲怎么把表格里的一列纯数字(指20180923081756)转化成(2018/09/23 08:17:56),再填回表的,其实就是涉及到了数据类型转换,数据结构还是不能丢啊……

数据样式转化前后:

 1.提取,转化数据类型,除去换行

foo = pd.read_excel("SAN_HISTORY.xlsx",header=0,usecols=['TRAN_TIME'])
#表格提取为DataFrame类型,转化为字符型
foo["TRAN_TIME"]= foo["TRAN_TIME"].astype(str)
foo["TRAN_TIME"] = foo["TRAN_TIME"].str.strip("\\n")
 第一行:

读取表格的对应列[TRAN_TIME],存为foo

第二行:

利用astype转化为字符型,因为下面的datatime只能处理字符型,可pd提取出来的是DataFrame,所以转一下转一下。

第三行:

转化为字符型之后可以输出一下,会发现每个字符串后面都跟着一个\n,就是大概20180923081756\n,这是因为我们的表格里每个字符串都自动带一个换行符,所以我们需要把换行符去掉,这里使用了strip函数。这个函数可以移除字符串首尾指定的字符,还是蛮方便的。

2.数据格式转化,保存

dd=pd.to_datetime(foo["TRAN_TIME"], format='%Y%m%d%H%M%S')
dd.to_excel("SAN_HISTORY.xlsx", columns=['TRAN_TIME'],index=False)
 第一行:

简单的时间日期转化,format分别表示年月天小时分钟秒,按照字符串顺序来,它会自己划分的。这里插一句,如果是自输入的话可以用下面这行, 一个博主写的,但不记得地址了,查了好多资料。

dd=input("输入净值的开始日期:(例:20220901)")
 第二行:

保存文件,这里是要捣鼓一下覆盖原文件原列,还没成功,成功了再更新

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值