自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 【转】python pandas 数据框切片 最全总结

https://zhuanlan.zhihu.com/p/350467513

2024-01-29 14:35:14 88

原创 我爬取了前程无忧和BOSS直聘上关于数据分析师的职位,发现了什么?

数据来源:boss直聘,有效数据共计248条。数据来源:前程无忧,有效数据共计7110条。

2023-02-10 10:54:10 533 2

原创 python 日期的处理4:str、int如何转换成日期格式并计算相距天数

strptime()是模块datetime类datetime的函数,作者开发库时使用了同一个名称。如果要同时使用today()和strptime()两个函数,一定要注意上个层级以及调用方法。

2023-02-10 10:46:53 1463

原创 python 如何自动读取含“xx”关键字的excel文件,并返回一个DataFrame

那小A就发愁了,每周都导表-读表,导表的动作省不了,有没有一种可能,就是读表我让python自己完成,每周要读取的excel文件都是固定的,我导出来,不用做任何操作,注意,不用做任何操作,不用对excel改名,然后运行python,就可以读取进来呢~1)首先,小A建一个文件夹,这个文件夹的作用是为了提前告诉python,你别给我读其他的,就读这个文件夹,也就是我们函数。后续,这个代码可以固化下来,每次把表格下载后,放到path的路径下,就可以自动读取到python,储存为数据框df了~...........

2022-08-11 16:43:27 1204

原创 【计息日期】国债逆回购类产品的起息日期和兑付日期,如何用python优雅实现?~

本文基于国债逆回购的计息逻辑,编写了起息日期和兑付日期的计算函数,通过调用该函数,可以方便的计算出每次的计息天数2、给定一个成交日期,如何计算出2.1 兑付日期的业务逻辑的计算有些复杂,首先我们要引入到期日期:通常来说,到期日期 = T+产品期限,如遇节假日,顺延至下一交易日。也就是和起息日不一样的是,我们先要对到期日期做一层判断,才能进入兑付日期的判断。是否在交易日【兑付日期】=【到期日期】+1 day是否在交易日结束【兑付日期】=【兑付日期】+1 day【到期日期】=【到期日期】+1 da

2022-07-12 14:58:41 498

原创 python 计算IV值及解释

http://ucanalytics.com/blogs/information-value-and-weight-of-evidencebanking-case/

2021-02-09 11:14:00 360

原创 python cross_val_score

Evaluate multiple scores on sklearn cross_val_scorehttps://stackoverflow.com/questions/35876508/evaluate-multiple-scores-on-sklearn-cross-val-scoreCross-validation: evaluating estimator performancehttps://scikit-learn.org/stable/modules/cross_validation

2021-02-05 09:12:03 247 1

原创 python数据预处理中 超喜欢用的命令行~~~持续更新

1、 当我们想让数据框A和B牵手,但是他们有重复列,只想保留一个。df= pd.merge(A,B,on = 'serno',how = 'left',suffixes = ('','_y'))df.drop(df.filter(regex='_y$').columns.tolist(),axis=1, inplace=True)通过suffixes 参数来控制,想删A中的重名就标记A中的,再用drop删除即可。2、 数据分析之前常用的基础配置import pandas as pdimport

2021-01-20 15:52:23 212 2

原创 python 日期的处理3:提取年月,2020-01-01转换为2020-01

import timedef date_ym(date): date_str = date.strftime('%Y-%m-%d') yearMonth = date_str[0:7] return yearMonthtmp['yearMonth'] = tmp['user_date'].apply(lambda x:date_ym(x))输出结果:

2020-12-09 15:45:18 7555 3

原创 python 数据框提取只含特定字符的列名

读取数据框test_df列名lst = test_df.columns.values.tolist()只取含字符’ql_m12’的列名var_lst = list(filter(lambda x: len(x) != len(x.replace('ql_m12','')),lst))filter函数filter()函数用于过滤序列,过滤掉不符合条件的元素,返回符合条件的元素组成新列表。filter(function,iterable) # 其中function为函数,iterabl

2020-12-09 09:55:01 2527 1

原创 python 日期的处理2:以当前日期,加减1个月,生成以月份为增减量的日期序列

问题:“2020-01-02” 生成[‘2020-01-02’, ‘2020-01-02’, ‘2020-02-02’, ‘2020-03-02’, ‘2020-04-02’, ‘2020-05-02’, ‘2020-06-02’]def dateList(start,n): dateL = [start] for i in range(n): date = pd.to_datetime(start)+ relativedelta(months=

2020-12-03 18:31:05 2315

原创 python 还在为seaborn的配色烦恼吗~~图表风格和颜色主题总结归纳

seaborn图标风格与颜色主题如果想调背景板:sns.set_style(“darkgrid”)例子调整绘图元素的比例sns.set_context(“paper”)这个是啥?怎么用激动人心的颜色主题来啦sns.color_pallette()seaborn常用的命令:1. 绘图显示中文:2. 画图流程:3. 不显示legend三个函数就可搞定,且听我慢慢道来:sns.set_palette()sns.set_style()sns_set_context()如果想调背景板:sns.set_st

2020-12-02 14:59:17 2751 2

原创 python 分组找出最大值所在行groupby() + idxmax()等四种方法

df = pd.DataFrame({'x':['A','C','B','D','C','B','B','A','D'],'num':[12,23,43,54,52,1,8,9,12])>> x num0 A 121 C 232 B 433 D 544 C 525 B 16 B 87 A 98 D 12取出df中按x分组后最大值所在行#第一步:找到最大值所在行的index,此时返回的是idm,series类型idm = df.groupby('x')['

2020-11-23 14:45:27 6857

原创 python 判断某个值是否存在于列表/数据框中,A in B ?

持续更新总结ingA is in B 中 ?一、当A是字符串or数字,B也是一个值时, ==A = '8'B = 8A == B #False eval(A) == B #True字符串转数字: int(),或者eval()直接去除引号;数字转字符串:str()二、 当A是单个值,B是列表时, inA = 8B = [1,2,3]A in B >> False三、当A是单个值,B是pandas的Series时,a = pd.Series(['

2020-11-12 15:44:51 12465 1

原创 python 利用all(),any() 查找存在0、全是0、含缺失值的列

df2.loc[:,(df2==0).any()].columns

2020-10-30 16:07:16 9957

原创 python 三行代码解决绘图保存到本地

for index in df1.index: bin_plot(df2, x=index, target='target') #你的绘图语句 path = 'binplt_' + index +'.png' #你想存的路径,并且图片以你绘图的变量为名。 plt.savefig(path, dpi=400, bbox_inches='tight') #保存在你指定的path路径...

2020-10-30 09:37:49 1235

原创 建模时二值化处理oneHotEncoder与get_dummies要点

二值化处理几个注意点:若用oneHotEncoder,注意该函数无法识别NA类型的,因为NA不是整数型,所以需要在二值化前对NA进行缺失值填补;如果用get_dummies函数,a = pd.DataFrame(['YES','NO','YES','NO','NO','YES'],columns =['FEE'])b = pd.get_dummies(a)返回值b,是uint8格式,无法用于大多数建模的输入。需要转换。b.info()<class ‘pandas.cor

2020-08-26 01:02:39 409

原创 python 日期的处理1: to_datetime ,字符串格式 “12JAN2020 :21:56:00” 转换成 日期格式 ‘2020-01-12’

问题 : 字符串格式 “12JAN2020 :21:56:00” 转换成 日期格式 ‘2020-01-12’import datetimea = pd.to_datetime('31JAN2018:21:25:00', format='%d%b%Y:%H:%M:%S')aTimestamp(‘2018-01-31 21:25:00’)两种写法方法一:b = datetime.date(a.year,a.month,a.day)bdatetime.date(2018, 1, 31)

2020-08-18 19:12:59 2561

原创 anoconda安装第三方包的方法

在anoconda环境下import fake_useragent会报错,提示没有此包因此要安装此包方能在anoconda jupyter使用常规解法菜单-anoconda-anoconda prompt -输入conda install fake_useragent 结果如下:行不通~查了比较多的资料,都没有给出具体的解决做法,最后摸索着这么解决了:https://pypi.org/project/fake-useragent/#files,下载gz包进入promt :pip

2020-06-12 00:58:10 449

原创 KNN参数设置小实验——基于mglearn人工生成数据集(结果可视化)

KNN的小实验part 1采用mglearn包中的make_forge来训练~make_forge数据集turple类型,是一个二分的数据集,藏着两个array一个array是(26,2)的X一个array是(26,1)的ymglearn可通过加载datasets获取人工生成的数据,也就是前缀带make的,而本文的make_forge就是人工生成的,用于学习KNN的~我们先导入基本的包!import numpy as npimport matplotlib.pyplot as plti

2020-06-09 21:37:57 1041

原创 利用python处理excel文件实战

本程序实现的是,通过导入excel文件,最终输出一个excel文件保存处理结果。

2020-05-08 01:03:51 566

原创 《Python语言程序设计》习题3-turtle绘制简单图形

turtle正方形绘制import turtle as tfor i in range(4): t.fd(100) t.left(90)t.done()turtle六边形绘制import turtle as tfor i in range(6): t.fd(100) t.left(60)t.done()turtle叠边形绘制import t...

2020-03-23 23:01:25 3830 1

原创 2020数据分析师学习路径

简介本人统计学出身,在学校学习了诸多理论,但是实战经验不足。为了面对日益严峻的数据分析和数据挖掘的就业形势,看了N篇咨讯和就业规划,以及结合自己的工作经验,为了找到一份更加靠谱切合专业的工作,做了以下学习路径的规划。可结合自己的兴趣点去完成相应的学习。现在我在一家甲方公司里上班,然鹅本来梦想成为一名商业数据分析师,工作了一年,掌握的技术主要是数据仓库、SAS和SQL,活生生的成了业务端的表哥...

2020-02-20 17:22:08 1504

转载 1-2梯度下降法&多层感知器(Tensorflow学习笔记)

#寻找损失函数的极值点的算法#局部最优#为什么一定会找到最小值?#随机初始化值的概率#学习速率是一种超参数#有哪些优化算法,以及他们的学习速率怎么定#学习速率过高过低,会影响找到极值点的效率,如果太大,会让损失函数的极值在极值点附近来回跳动感知器的历程#多层感知器(神经网络)#单个神经元#多个神经元(多分类)无法解决异或问题单层神经元的缺陷:神经元要求数据必须是线性可分...

2020-02-20 17:03:49 1835 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除