pandas
文章平均质量分 63
我叫陈叉叉叉叉
这个作者很懒,什么都没留下…
展开
-
【pandas】时间序列_interpolate函数_plot等
时间序列_interpolate函数_plot等原创 2022-09-15 11:10:30 · 485 阅读 · 0 评论 -
【pandas】多个sheet的读取和导出
第一次碰到多个sheet的批量处理,记录一下读取和导出import numpy as np import pandas as pd# 读取同一个文件中多个sheetdf = pd.read_excel('2020年往来明细.xlsx',sheet_name=None)df['供应商清单']['code'] = df['供应商清单']['code'].astype('float')df_m = df['供应商清单'][['code','vendor']]df_m.rename(columns原创 2021-04-25 22:28:13 · 963 阅读 · 0 评论 -
【缺失值填补】面板数据的缺失值补全方法
对于两端缺失数据使用前后填充,对于中间数据使用线性插值(可替换)import numpy as np import pandas as pd from scipy.interpolate import interp1ddf = pd.read_excel('data.xlsx')df['城市'].fillna(method = 'ffill',inplace = True)df.drop('city',1,inplace=True)df[df['城市'] == '晋中市']原创 2020-10-21 21:52:00 · 16066 阅读 · 2 评论 -
【pandas】计算最大连续间隔时间
import pandas as pd 问题说明数据中样本年份不连续,所以想办法知道每个样本的最大连续年份,比如说下面的df中A是3年,B是5年df = pd.DataFrame({'id': 'A', 'year': [2000, 2001, 2003, 2005, 2006, 2007]}).append( pd.DataFrame({'id': 'B', 'year': [2001, 2003, 2004, 2005, 2006, 2007, 2009]}))df原创 2020-10-05 13:26:39 · 1215 阅读 · 1 评论 -
pandas_文本数据
import pandas as pd import numpy as np pd.set_option('display.max_columns', 1000) # 显示的最大列数(避免列显示不全)pd.set_option("display.max_colwidth", 1000) # 每一列最大的宽度(避免属性值或列名显示不全)pd.set_option('display.width', 1000) # 每一行的宽度(避免换行)1.string 才是未来# pd.Series([1原创 2020-06-23 13:10:56 · 201 阅读 · 0 评论