自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_44210796的博客

原创数据预处理之方差过滤

数据预处理之方差过滤在机器学习的数据预处理的过程中常常会是使用到过滤法，而方差过滤是过滤法之一。所谓的方差过滤就是过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值，过滤掉那些方差小的特征，从而达到特征筛选的目的。在 sklearn中可以调用from sklearn.feature_selection import VarianceThresho

2020-09-10 09:27:00 9073 5

原创钙钛矿的容忍因子计算使用的离子半径的反证

@钙钛矿的容忍因子计算使用的离子半径的反证钙钛矿稳定性的问题非常重要，但理论上对其深层次的理解却进展缓慢。目前广泛采用的衡量钙钛矿稳定性的容忍因子（tolerance factor，简称t，参见图1）早在1926年由Goldschmidt提出。若是稳定的钙钛矿其容忍因子的范围一般为0.77~1.10之间。钙钛矿的A位配位数为12，B位配位数为6，X配位数为6。但是笔者最近发现：由于配位数12的离子半径的数据不全，很多科研工作者都将A配位数6的离子半径充当计算时使用的半径。本文通过收集已发表的文献钙

2020-05-14 17:36:03 19072 3

原创贝叶斯算法

关于贝叶斯算法的原理，这里不详细展开，这里主要写Python代码实现高斯贝叶斯算法。高斯贝叶斯：GaussianNB 就是假设每个标签的数据服从简单的正态分布p(X j = xj | Y = Ck) = 其中为Y的第k类类别。1.代码如下：class GaussianNB: def fit(self,X_train,Y_train): self.mu = np...

2020-03-04 20:20:16 263

原创 python for循环，列表推导、numpy三者的运算速度对比

在Python中，我们要尽量的对数据计算选择使用numpy格式，不要过得使用for，for循环计算效率很低，一般情况下，列表推导的计算速度介于两者之间。这里我将三者做一个对比，所做的案例就是将矩阵上的每个元素，在原来数值的基础上都加上1。这是一个简单的操作，对比一下，每种方法所花的计算的时间。这里就是使用sklearn的美国加州房价的数据集的特征X作为我们的矩阵数据集。imp...

2020-03-04 14:05:43 3310

原创用Python实现KNN算法

用Python实现KNN算法最近在玩imbalance的时候，看到imbalanced-learn中牵扯到了KNN算法,所以，就把KNN仔细地研究了一下。首先，KNN算法原理比较简单，通俗易懂。当然，在实现算法的过程中，参考了sklearn的代码风格，这里不得不说，sklearn真是简约大方，实用方便。k-近邻算法（k-Nearest Neighbour algorithm），又称为KNN算法...

2020-02-23 00:16:47 469

原创机器学习之特征工程

嵌套前进法1.嵌套法2.前进法3.前进法升级版4.总结：1.嵌套法很多同学在做特征工程的时候，面对特征的筛选，常常感到头疼，今天，我们介绍一种嵌套前进法专门用来筛选特征变量。所谓的嵌套前进法就是组合了嵌套法与前进法。接下来，我们选择sklearn的Boston房价的数据作为测试。首先导入需要的库from sklearn.datasets import load_bostonimport...

2019-12-12 10:15:33 535 1

机器学习之特征工程.md

很多同学在做特征工程的时候，面对特征的筛选，常常感到头疼，今天，我们介绍一种嵌套前进法专门用来筛选特征变量。所谓的嵌套前进法就是组合了嵌套法与前进法。

2019-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

上大博尔特 CSDN认证博客专家 CSDN认证企业博客

码龄6年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

6: 原创

25万+: 周排名

206万+: 总排名

3万+: 访问

: 等级

241: 积分

22: 粉丝

26: 获赞

9: 评论

91: 收藏

私信

关注

热门文章

分类专栏

最新评论

钙钛矿的容忍因子计算使用的离子半径的反证
嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯: 您好！请问能出一个这样的教程吗？想学！！谢谢！
钙钛矿的容忍因子计算使用的离子半径的反证
369LXH: 哥，能不能把excel文件也分享一下，这个代码太深奥
数据预处理之方差过滤
TingXiao-Ul: 您好，方差过滤时是否有必要考虑数据的量纲差异，即比较变异系数是不是比直接比较方差更稳妥？
数据预处理之方差过滤
上大博尔特: 是的，所以使用0 作为阈值做初筛挺好的
数据预处理之方差过滤
上大博尔特: vt = VarianceThreshold(threshold=0.5) X_vt = pd.DataFrame(vt.fit_transform(X),columns=X.columns[vt.get_support()] ) 需要调用get_support()

最新文章

提示

确定要删除当前文章？

取消删除