自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Kaggle:修改上传文件、使用自定义的包/脚本

在kaggle,如果想用自己写的py文件,需要注意两个地方:py文件用add data的方式上传,它的路径在input文件夹中,而我们的notebook在work里。这里需要调整下当前路径:新起一个cell输入(不用加感叹号)cd /kaggle/input/your_file检查下路径是否正确pwd我们写的包如果有代码需要修改,在这里新开一个标签:然后进入我们data的界面,图片的下面,右上角,点击new version:就可以修改了。...

2021-09-24 08:55:29 5848 4

原创 Python 循环遍历字典和列表储存字典时遇到的深浅拷贝问题

之前也看过深浅拷贝的理论,但从没遇到过相关的问题。在for循环中将dict重新设立,再存入列表中,字典就不会只重复最后一遍。原理是浅拷贝的内存地址都是一样的。在浅拷贝情况下,不同引用指向的是同一块内存,改其中一个引用,那么其他引用也会跟着改变。而在循环中重新设立dict,就是在每次遍历时新开立一块内存,因此不会影响每次存储的结果。...

2021-08-04 14:13:56 274

原创 Python 匹配两组(或多组)数据

数据a是否在数据b里面,一开始写了个for循环去匹配,可数据量大,慢到爆炸。而且某个人也说,用for循环处理大数据,是要被人打的。python处理该问题,目前为止有两种方法。使用set集合的intersection交集a = [1,2,3,4]b = [4,5,6,7]set(a).intersection(set(b))使用pandas 的merge函数,可以取dataframe的交集。作用和sql的left join,right join差不多。pd.merge(a,b,on

2021-08-02 13:39:58 5492

原创 给pandas上发条!

给pandas上发条!在使用apply函数的时候,加上tqdm就可以查看进度了:from tqdm import tqdm import pandas as pdtqdm.pandas()# 使用progress_apply替代applydf.progress_apply(func, args)处理数据量比较大时,开个天眼更加安心一些。Ps这几天被人教育了,要用map,apply,applymap去跑数,用for循环非常耗电且要被打的。...

2021-07-23 10:25:09 79

原创 Pandas对数据进行排序标记(rank函数)

Pandas对数据进行排序标记(rank函数)现有一个问题:数据是多个重复两遍的user_id,想新建一列,给重复的user_id标号,1和2。具体功能如图:使用groupby和rank函数即可实现上述功能。具体代码如下:# 注: 这里是用user_id列对数据进行分组,然后对id列进行排序并且标号df['rank_id'] = df.groupby('user_id').id.rank(ascending=1,method='first')rank的参数为:ascending: 排序

2021-07-22 16:47:39 1141

原创 使用Folium制作相册地图

使用Folium制作相册地图folium是JavaScript上著名的交互式地图库leaflet.js为Python提供的接口,通过它,我们可以在Python端调用leaflet的相关功能。leaflet通过内建的OpenStreetMap或自行获取的osm资源和地图原件来进行地理信息内容的可视化,以及制作优美的可交互地图。其语法格式是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来。在定义了所有图层内容之后,folium会生成一个html文件,我们可以在浏览器中打开它,也

2020-07-27 10:13:09 1596 1

原创 imblearn库:set_params报错Invalid parameter xxxx for estimator Pipeline

用imblearn库的pipline设置参数时,一直设一直报错。# 设评估分数的空字典fpr = dict()tpr = dict()roc_auc = dict()# 设多个参数ratio = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7]C = [3, 3, 3, 2, 2, 2, 2]gamma = [.02, .009, .009, .005, .0008, .0009, .0007]# 设管道estimators = [('smt', SVMSM

2020-05-20 17:11:21 1585 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除