sklearn
记录sklearn技术
Rocket,Qian
硕士毕业于同济大学,主要方向是机器学习、深度学习、推荐算法研究以及量化。精通python、MATLAB,熟悉java、C++等编程语言,熟练掌握数据结构与算法、计算机网络,sklearn、XGboost、Tensorflow、pytorch、Keras等框架,分布式系统等。
展开
-
决策树以及随机森林在Sklearn中的实现
决策树与随机森林 base of Sklearn1. 训练决策树分类器2.训练决策树回归模型3.可视化决策树4.训练随机森林分类器5.训练随机森林回归模型6.识别随机森林中的重要特征7.选择随机森林中的重要特征8.处理不均衡的分类9.控制决策树的规模10.通过boosting提高性能11.使用袋外误差(Out-of-Bag Error)评估随机森林模型基于树的学习算法是十分流行且应用广泛的一类非参数化的有监督学习算法,这些算法既可用于分类又可用于回归。本篇博客主要总结树模型在Sklearn中的实现,不涉及原创 2020-10-19 16:32:45 · 1702 阅读 · 0 评论 -
基于sklearn的朴素贝斯算法应用
朴素贝叶斯_sklearn1.朴素贝叶斯1.1 为连续的数据训练分类器1.2 为离散数据和计数数据训练分类器1.3 为具有二元特征的数据训练朴素贝叶斯分类器1.4 校准预测概率1.朴素贝叶斯1.1 为连续的数据训练分类器1.2 为离散数据和计数数据训练分类器1.3 为具有二元特征的数据训练朴素贝叶斯分类器1.4 校准预测概率...原创 2020-09-27 23:08:54 · 357 阅读 · 0 评论 -
基于Sklearn处理分类数据
处理分类数据_Sklearn1. 对nominal型分类特征编码2. 对ordinal分类特征编码3. 对特征字典编码4. 填充缺失的分类值5. 处理不均衡分类有时候根据某种特征而不是数量来度量对象会更有效。常常使用这种定性的信息来判断一个观察值的属性,比如按照性别、颜色或者车的品牌这样的类别对其进行分类。但并不是所有的分类数据都是这样的。本身没有内在顺序的类别称为nominal,相反,如果一组分类天然拥有内在的顺序性,就被称为ordinal。1. 对nominal型分类特征编码存在一个没有内部顺序的原创 2020-09-24 22:44:55 · 1013 阅读 · 0 评论 -
处理数值型特征
处理数值型特征1. 特征的缩放2. 特征的标准化3. 归一化观察值4. 生成多项式和交互特征5. 转换特征6. 识别异常值7. 处理异常值8. 将特征离散化9. 使用聚类的方式将观察值分组10. 删除带有缺失值的观察值11. 填充缺失值多种原始数值型数据转换为机器学习算法所需特征的方法。1. 特征的缩放用sklearn的MinMaxScaler来缩放一个特征数组,将一个数值型特征的值缩放到两个特定的值之间。import numpy as npfrom sklearn import preproce原创 2020-09-23 23:19:54 · 1059 阅读 · 0 评论 -
ML模型选择
模型选择1. 穷举搜索选择最佳模型2. 随机搜索选择最佳模型3. 从多种学习算法中选择最佳模型4. 将数据预处理加入模型选择过程5. 并行化加速模型选择6. 使用针对特定算法的方法加速模型选择7. 模型选择后的性能评估在机器学习中,通过最小化某个损失函数的值来训练算法以学习一个模型的参数。此外,许多算法(如支持向量机和随机森林)还有一些超参数,这些超参数必须在学习过程之外定义。将选择最佳学习算法以及选择最佳超参数的过程称为模型选择。1. 穷举搜索选择最佳模型通过搜索一系列的超参数来选择最佳模型使用原创 2020-09-20 20:30:10 · 733 阅读 · 0 评论 -
ML模型评估
模型评估1. 交叉验证模型2. 创建一个基准回归模型3. 创建一个基准分类模型4. 评估二元分类器5. 评估二元分类器的阈值6. 评估多元分类器7. 分类器性能的可视化8. 评估回归模型9. 评估聚类模型10. 创建自定义评估指标11. 可视化训练集规模的影响12. 生成对评估指标的报告13. 可视化超参数值的效果1. 交叉验证模型问题描述:评估生成的模型在实际应用中的表现解决方案:创建一个流水线,对数据进行预处理、训练模型,然后用交叉验证方法评估模型的性能。from sklearn import原创 2020-09-16 22:44:52 · 2893 阅读 · 0 评论 -
利用特征选择进行特征降维
利用特征选择进行特征降维1. 数值型特征方差的阈值化2. 二值特征的方差阈值化3. 处理高度相关性的特征4. 删除与分类任务不相关的特征5. 递归式特征消除特征提取(feature extraction):在尽可能不丢失特征原始信息的情况下,通过创建新特征来降低特征矩阵的维度。另一种降维方法,特征选择会保留信息量较高的特征而丢弃信息量较低的特征。特征选择的方法:过滤器:过滤器方法根据特征的统计信息来选择最优特征。包装器:包装器通过不断试错,找出一个可以产生高质量预测值得模型的特征子集。嵌入式原创 2020-09-15 15:23:07 · 1880 阅读 · 0 评论 -
利用特征提取进行特征降维
利用特征提取进行特征降维1. 使用主成分进行特征降维2. 对线性不可分数据进行特征降维3. 通过最大化类间可分性进行特征降维4. 使用矩阵分解进行特征降维5. 对稀疏矩阵进行特征降维1. 使用主成分进行特征降维问题描述:对于给定的一组特征,在保留信息量的同时减少特征的数量解决方案:from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn import data原创 2020-09-14 17:51:15 · 2626 阅读 · 0 评论