资料
CristinaM
这个作者很懒,什么都没留下…
展开
-
【基础概念】Matplotlib里的plt.xxx(), or ax.xxx()
侵删,来源:https://towardsdatascience.com/plt-xxx-or-ax-xxx-that-is-the-question-in-matplotlib-8580acf42f44坑坑坑,等有空再看。原创 2020-01-05 20:43:40 · 480 阅读 · 0 评论 -
【资料】Model evaluation, model selection, and algorithm selection in machine learning
Model evaluation, model selection, and algorithm selection in machine learningDo you know how to choose the right machine learning algorithm among 7 different types?原创 2019-12-27 09:51:04 · 461 阅读 · 0 评论 -
【基础概念】P-values的解释
无授权,自留,侵删:P-values Explained By Data Scientist四个部分:Hypothesis TestingNormal DistributionWhat is P-value?Statistical Significance1.Hypothesis Testing首先了解一下hypothesis testing ,在这里, p-value 被用来...转载 2019-12-24 21:59:16 · 4665 阅读 · 0 评论 -
【gis学习】GDAL获取栅格数据各个像素对应的经纬度
参考:GDAL获取栅格数据各个像素对应的经纬度(Python版)gdal GetGeoTransform解释 GetProjectionRef//如果图像不含地理坐标信息,默认返回值是:(0,1,0,0,0,1)//In a north up image,//左上角点坐标(padfGeoTransform[0],padfGeoTransform[3]);//padfGeoTransfor...原创 2019-12-18 10:18:57 · 6901 阅读 · 7 评论 -
【语言分析】看看我为了不写英语作业都做了些什么
Text Mining in Python: Steps and Examples词性标注(Part-of-speech tagging)词性标注(Part-of-speech tagging)(自然语言处理文档系列)Penn Treebank词性标记集import pandas as pdimport numpy as npimport osimport nltk.corpus...原创 2019-12-14 22:57:59 · 184 阅读 · 0 评论 -
【特征工程】(资料)使用Xgboost筛选特征重要性
资料:Using XGBoost For Feature SelectionFeature Importance and Feature Selection With XGBoost in Python原创 2019-12-14 16:42:10 · 918 阅读 · 0 评论 -
【基础概念】(自存)几种验证模型的方法(交叉验证及模型对比)
使用适当的验证技术可以帮助您理解您的模型,但最重要的是,评估一个无偏的泛化性能。转载 2019-12-14 11:33:08 · 5206 阅读 · 0 评论 -
【资料】Divide dataset
Is there a rule-of-thumb for how to best divide data into training and validation sets? Is an even 50/50 split advisable原创 2019-12-13 15:51:23 · 213 阅读 · 0 评论 -
【Pytorch】【CNN】一些资料
CNN 卷积神经网络原创 2019-12-12 15:36:46 · 97 阅读 · 0 评论 -
【特征处理】Label Encoding与One Hot
其实Catboost自带处理类别数据的功能。但还是学习一下。Label Encoding与One Hot的区别-201805131.两类模型:(A)逻辑回归,SVM。对数值大小是敏感的,即变量间的数值大小本身是有比较意义的。(B)树模型。对数值变化不敏感,数值存在的意义更多的是为了排序,即0.1,0.2,0.3与1,2,3是没有区别的,这部分模型绝大部分是。2.两类类别变量:2.1...原创 2019-12-09 16:01:43 · 473 阅读 · 0 评论 -
【基础概念】什么是benchmark model?
阅读文献的时候提到多次,决定还是存一些资料。What is a benchmark model?Benchmarking Predictive Models基准测试流程可能需要运行多次,并使用一个聚合平滑度量 smoothed measure(如中值median value)进行比较为了Benchmarking Models,set.seed,random.seed等的意义就出现了...原创 2019-12-09 14:56:01 · 4458 阅读 · 0 评论 -
把文本里含有某个关键词的赋值1,其余赋值为0
依旧是芝加哥犯罪的demo:dataset['Block'] = dataset['Address'].str.contains('block', case=False)dataset['Block'] = dataset['Block'].map(lambda x: 1 if x == True else 0)print(dataset.Block.head())0 01 ...原创 2019-12-08 22:36:21 · 759 阅读 · 0 评论 -
关于数据泄露
关注这个主要是之前看了nature那篇地震预测的纷争,希望自己以后能绕开。存一些资料。一些文章:你可能过于高估了机器学习算法能力,带你解读鲜为人知的数据泄露问题Kaggle上关于data leakage的详细介绍以及提出的一些避免方法How Data Leakage Impacts Machine Learning Models(一个详细解释)八卦:Nature论文预测余震只是炒作?...原创 2019-12-08 21:11:36 · 198 阅读 · 0 评论 -
Python安装Geopandas库
没想到装这个比配置pytorch还麻烦。Step1 查看属性import wheel.pep425tags as wprint(w.get_supported())[('cp37', 'cp37m', 'win_amd64'), ('cp37', 'none', 'win_amd64'), ('cp37', 'none', 'any'), ('cp3', 'none', 'any'), ...原创 2019-12-07 16:53:05 · 774 阅读 · 0 评论 -
利用Shap解释Xgboost(或者别的)模型
Shap的一些介绍:SHAP包算法解析shap的中文解析知乎的翻译ps,sklearn库的模型可以用lime模块解析本文参考利用SHAP解释Xgboost模型数据集原创 2019-12-07 16:33:07 · 13012 阅读 · 6 评论 -
Pandas练习资料,技巧,函数 &cat.codes +1
50道练习一些奇怪的操作在这里插入代码片原创 2019-12-01 15:41:33 · 2079 阅读 · 0 评论 -
统计学_相关性分析(资料)
用Python统计推断——相关性篇原创 2019-12-01 10:40:52 · 603 阅读 · 0 评论 -
Dataset(自留)_Geoscience
Landslide Hazards原创 2019-12-01 09:33:58 · 131 阅读 · 0 评论 -
特征处理与可视化资料
数据分析思维训练—泰坦尼克生还者预测鳄梨价格分析——Python数据可视化This notebook demos Python data visualizations on the Iris dataset特征处理的小case原创 2019-11-30 18:02:31 · 108 阅读 · 0 评论 -
机器学习模型的可解释性
参考:https://www.jiqizhixin.com/articles/2019-10-30-9原创 2019-11-30 15:05:16 · 265 阅读 · 0 评论