python
上大博尔特
专注研究机器学习、深度学习
展开
-
数据预处理之方差过滤
数据预处理之方差过滤在机器学习的数据预处理的过程中常常会是使用到过滤法,而方差过滤是过滤法之一。所谓的方差过滤就是过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值,过滤掉那些方差小的特征,从而达到特征筛选的目的。在 sklearn中可以调用from sklearn.feature_selection import VarianceThresho原创 2020-09-10 09:27:00 · 9022 阅读 · 5 评论 -
钙钛矿的容忍因子计算使用的离子半径的反证
@钙钛矿的容忍因子计算使用的离子半径的反证钙钛矿稳定性的问题非常重要,但理论上对其深层次的理解却进展缓慢。目前广泛采用的衡量钙钛矿稳定性的容忍因子(tolerance factor,简称t,参见图1)早在1926年由Goldschmidt提出。若是稳定的钙钛矿其容忍因子的范围一般为0.77~1.10之间。钙钛矿的A位配位数为12,B位配位数为6,X配位数为6。但是笔者最近发现:由于配位数12的离子半径的数据不全,很多科研工作者都将A配位数6的离子半径充当计算时使用的半径。本文通过收集已发表的文献钙原创 2020-05-14 17:36:03 · 18900 阅读 · 3 评论 -
贝叶斯算法
关于贝叶斯算法的原理,这里不详细展开,这里主要写Python代码实现高斯贝叶斯算法。高斯贝叶斯 :GaussianNB 就是假设每个标签的数据服从简单的正态分布p(X j = xj | Y = Ck) = 其中 为Y的第k类类别。1.代码如下:class GaussianNB: def fit(self,X_train,Y_train): self.mu = np...原创 2020-03-04 20:20:16 · 263 阅读 · 0 评论 -
python for循环,列表推导、numpy三者的运算速度对比
在Python中,我们要尽量的对数据计算选择使用numpy格式, 不要过得使用for,for循环计算效率很低,一般情况下,列表推导的计算速度介于两者之间。 这里我将三者做一个对比,所做的案例就是将矩阵上的每个元素, 在原来数值的基础上都加上1。这是一个简单的操作,对比一下,每种方法所花的计算的时间。这里就是使用sklearn的美国加州房价的数据集的特征X作为我们的矩阵数据集。imp...原创 2020-03-04 14:05:43 · 3302 阅读 · 0 评论