- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 数据预处理之方差过滤
数据预处理之方差过滤在机器学习的数据预处理的过程中常常会是使用到过滤法,而方差过滤是过滤法之一。所谓的方差过滤就是过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值,过滤掉那些方差小的特征,从而达到特征筛选的目的。在 sklearn中可以调用from sklearn.feature_selection import VarianceThresho
2020-09-10 09:27:00 9073 5
原创 钙钛矿的容忍因子计算使用的离子半径的反证
@钙钛矿的容忍因子计算使用的离子半径的反证钙钛矿稳定性的问题非常重要,但理论上对其深层次的理解却进展缓慢。目前广泛采用的衡量钙钛矿稳定性的容忍因子(tolerance factor,简称t,参见图1)早在1926年由Goldschmidt提出。若是稳定的钙钛矿其容忍因子的范围一般为0.77~1.10之间。钙钛矿的A位配位数为12,B位配位数为6,X配位数为6。但是笔者最近发现:由于配位数12的离子半径的数据不全,很多科研工作者都将A配位数6的离子半径充当计算时使用的半径。本文通过收集已发表的文献钙
2020-05-14 17:36:03 19072 3
原创 贝叶斯算法
关于贝叶斯算法的原理,这里不详细展开,这里主要写Python代码实现高斯贝叶斯算法。高斯贝叶斯 :GaussianNB 就是假设每个标签的数据服从简单的正态分布p(X j = xj | Y = Ck) = 其中 为Y的第k类类别。1.代码如下:class GaussianNB: def fit(self,X_train,Y_train): self.mu = np...
2020-03-04 20:20:16 263
原创 python for循环,列表推导、numpy三者的运算速度对比
在Python中,我们要尽量的对数据计算选择使用numpy格式, 不要过得使用for,for循环计算效率很低,一般情况下,列表推导的计算速度介于两者之间。 这里我将三者做一个对比,所做的案例就是将矩阵上的每个元素, 在原来数值的基础上都加上1。这是一个简单的操作,对比一下,每种方法所花的计算的时间。这里就是使用sklearn的美国加州房价的数据集的特征X作为我们的矩阵数据集。imp...
2020-03-04 14:05:43 3310
原创 用Python实现KNN算法
用Python实现KNN算法最近在玩imbalance的时候,看到imbalanced-learn中牵扯到了KNN算法,所以,就把KNN仔细地研究了一下。首先,KNN算法原理比较简单,通俗易懂。当然,在实现算法的过程中,参考了sklearn的代码风格,这里不得不说,sklearn真是简约大方,实用方便。k-近邻算法(k-Nearest Neighbour algorithm),又称为KNN算法...
2020-02-23 00:16:47 469
原创 机器学习之特征工程
嵌套前进法1.嵌套法2.前进法3.前进法升级版4.总结:1.嵌套法很多同学在做特征工程的时候,面对特征的筛选,常常感到头疼,今天,我们介绍一种嵌套前进法专门用来筛选特征变量。所谓的嵌套前进法就是组合了嵌套法与前进法。接下来,我们选择sklearn的Boston房价的数据作为测试。首先导入需要的库from sklearn.datasets import load_bostonimport...
2019-12-12 10:15:33 535 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人