我已经想不出昵称了-CSDN博客

原创 Kaggle：修改上传文件、使用自定义的包/脚本

在kaggle，如果想用自己写的py文件，需要注意两个地方：py文件用add data的方式上传，它的路径在input文件夹中，而我们的notebook在work里。这里需要调整下当前路径：新起一个cell输入（不用加感叹号）cd /kaggle/input/your_file检查下路径是否正确pwd我们写的包如果有代码需要修改，在这里新开一个标签:然后进入我们data的界面，图片的下面，右上角，点击new version:就可以修改了。...

2021-09-24 08:55:29 6144 4

原创 Python 循环遍历字典和列表储存字典时遇到的深浅拷贝问题

之前也看过深浅拷贝的理论，但从没遇到过相关的问题。在for循环中将dict重新设立，再存入列表中，字典就不会只重复最后一遍。原理是浅拷贝的内存地址都是一样的。在浅拷贝情况下，不同引用指向的是同一块内存，改其中一个引用，那么其他引用也会跟着改变。而在循环中重新设立dict，就是在每次遍历时新开立一块内存，因此不会影响每次存储的结果。...

2021-08-04 14:13:56 284

原创 Python 匹配两组（或多组）数据

数据a是否在数据b里面，一开始写了个for循环去匹配，可数据量大，慢到爆炸。而且某个人也说，用for循环处理大数据，是要被人打的。python处理该问题，目前为止有两种方法。使用set集合的intersection交集a = [1,2,3,4]b = [4,5,6,7]set(a).intersection(set(b))使用pandas 的merge函数，可以取dataframe的交集。作用和sql的left join，right join差不多。pd.merge(a,b,on

2021-08-02 13:39:58 5532

原创给pandas上发条！

给pandas上发条！在使用apply函数的时候，加上tqdm就可以查看进度了：from tqdm import tqdm import pandas as pdtqdm.pandas()# 使用progress_apply替代applydf.progress_apply(func, args)处理数据量比较大时，开个天眼更加安心一些。Ps这几天被人教育了，要用map，apply，applymap去跑数，用for循环非常耗电且要被打的。...

2021-07-23 10:25:09 87

原创 Pandas对数据进行排序标记（rank函数）

Pandas对数据进行排序标记（rank函数）现有一个问题：数据是多个重复两遍的user_id，想新建一列，给重复的user_id标号，1和2。具体功能如图：使用groupby和rank函数即可实现上述功能。具体代码如下：# 注：这里是用user_id列对数据进行分组，然后对id列进行排序并且标号df['rank_id'] = df.groupby('user_id').id.rank(ascending=1,method='first')rank的参数为：ascending: 排序

2021-07-22 16:47:39 1164

原创使用Folium制作相册地图

使用Folium制作相册地图folium是JavaScript上著名的交互式地图库leaflet.js为Python提供的接口，通过它，我们可以在Python端调用leaflet的相关功能。leaflet通过内建的OpenStreetMap或自行获取的osm资源和地图原件来进行地理信息内容的可视化，以及制作优美的可交互地图。其语法格式是通过不断添加图层元素来定义一个Map对象，最后以几种方式将Map对象展现出来。在定义了所有图层内容之后，folium会生成一个html文件，我们可以在浏览器中打开它，也

2020-07-27 10:13:09 1615 1

原创 imblearn库：set_params报错Invalid parameter xxxx for estimator Pipeline

用imblearn库的pipline设置参数时，一直设一直报错。# 设评估分数的空字典fpr = dict()tpr = dict()roc_auc = dict()# 设多个参数ratio = [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7]C = [3, 3, 3, 2, 2, 2, 2]gamma = [.02, .009, .009, .005, .0008, .0009, .0007]# 设管道estimators = [('smt', SVMSM

2020-05-20 17:11:21 1607 1

xiyu820312的博客