【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦

置顶数智笔记

于 2024-08-12 22:12:28 发布

阅读量331

点赞数 13

分类专栏： AIDOCZH 文章标签： scikit-learn python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjjc1017/article/details/141143661

版权

AIDOCZH 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦

网站地址：http://www.aidoczh.com/scikit-learn/

一、scikit-learn官方文档翻译

自从有了想翻译scikit-learn官方文档的想法，已经有了半年时间，现在终于翻译和校验完了。由于精力有限，难免会有一些错误，请大家见谅。scikit-learn是机器学习领域最重要的工具，但由于一些大量的专业词汇，导致阅读会有一些缓慢，通过翻译了中文文档，可以快速了解相关知识，也可以跟官网的对应网页找到对应。希望能帮助到数据挖掘、机器学习领域学习的同学。

二、网站地图

1、安装说明

2、入门指南

4、用户指南

1. 监督学习
 1.1. 线性模型
 1.2. 线性判别分析和二次判别分析
 1.3. 核岭回归
 1.4. 支持向量机
 1.5. 随机梯度下降
 1.6. 最近邻算法
 1.7. 高斯过程
 1.8. 交叉分解
 1.9. 朴素贝叶斯
 1.10. 决策树
 1.11. 集成方法：梯度提升、随机森林、装袋、投票、堆叠
 1.12. 多类和多输出算法
 1.13. 特征选择
 1.14. 半监督学习
 1.15. 等渗回归
 1.16. 概率校准
 1.17. 神经网络模型（监督学习）
2. 无监督学习
 2.1. 高斯混合模型
 2.2. 流形学习
 2.3. 聚类
 2.4. 双向聚类
 2.5. 信号分解为成分（矩阵分解问题）
2.6. 协方差估计
 2.7. 新奇和异常检测
 2.8. 密度估计
 2.9. 神经网络模型（无监督）
3. 模型选择与评估
 3.1. 交叉验证：评估估计器性能
 3.2. 调整估计器的超参数
 3.3. 调整分类预测的决策阈值
 3.4. 度量和评分：量化预测质量
 3.5. 验证曲线：绘制分数以评估模型
 4. 检查
 4.1. 部分依赖图与个体条件期望图
 4.2. 排列特征重要性
 5. 可视化
 6. 数据集转换
 6.1. 流水线和复合估计器
 6.2. 特征提取
 6.3. 数据预处理
 6.4. 缺失值的插补
 6.5. 无监督维度缩减
 6.6. 随机投影
 6.7. 核近似
 6.8. 成对度量、亲和力和核函数
 6.9. 转换预测目标（
7. 数据集加载工具
 7.1. 玩具数据集
 7.2. 真实世界数据集
 7.3. 生成的数据集
 7.4. 加载其他数据集
 8. 使用 scikit-learn 进行计算
 8.1. 计算扩展策略：更大的数据
 8.2. 计算性能
 8.3. 并行性、资源管理和配置
 9. 模型持久化
 10. 常见陷阱与推荐实践
 11. 调度
 11.1. 数组 API 支持（实验性）
12. 选择合适的估计器
 13. 外部资源、视频和演讲

五、案例代码

Release Highlights
scikit-learn 1.5 版本发布亮点
 scikit-learn 1.4 版本发布亮点
 scikit-learn 1.3 版本发布亮点
 scikit-learn 1.2 版本发布亮点
 scikit-learn 1.1 版本发布亮点
 scikit-learn 1.0 版本发布亮点
 scikit-learn 0.24 版本发布亮点
 scikit-learn 0.23 版本发布亮点
 scikit-learn 0.22 版本发布亮点
 Biclustering
一个谱双聚类算法的演示
 使用谱协同聚类算法对文档进行双聚类
 谱聚类算法演示
 Calibration
3类分类的概率校准
 分类器校准比较
 分类器的概率校准
 概率校准曲线
 Classification
分类器比较
 用于分类的普通、Ledoit-Wolf 和 OAS 线性判别分析
 线性判别分析和二次判别分析的协方差椭球体
 绘制分类概率
 识别手写数字
 Clustering
DBSCAN聚类算法演示
 HDBSCAN聚类算法演示
 K-Means 和 MiniBatchKMeans 聚类算法的比较
 K-Means++ 初始化示例
 K-means 聚类
 OPTICS聚类算法示例
 k-means 假设的演示
 k-means 初始化影响的经验评估
 二分 K-Means 和常规 K-Means 性能比较
 二维嵌入数字的各种凝聚聚类
 亲和传播聚类算法示例
 使用K均值的颜色量化
 使用不同度量的凝聚聚类
 使用轮廓分析选择KMeans聚类的簇数
 在玩具数据集上比较不同的聚类算法
 在线学习人脸部件的字典
 均值漂移聚类算法示例
 对比不同层次聚类方法在玩具数据集上的表现
 将希腊硬币的图片分割成多个区域
 层次聚类：结构化 vs 非结构化 Ward
带有和不带有结构的凝聚聚类
 归纳聚类
 手写数字数据上的K-Means聚类演示
 比较 BIRCH 和 MiniBatchKMeans
特征聚合
 特征聚合与单变量选择
 用于图像分割的谱聚类
 矢量量化示例
 硬币图像的结构化Ward层次聚类演示
 绘制层次聚类树状图
 聚类性能评估中的机会调整
 Covariance estimation
Ledoit-Wolf 与 OAS 估计
 收缩协方差估计：LedoitWolf vs OAS 和最大似然
 稀疏逆协方差估计
 稳健与经验协方差估计
 稳健的协方差估计和马氏距离的相关性
 Cross decomposition
主成分回归与偏最小二乘回归
 比较交叉分解方法
 Dataset examples
数字数据集
 绘制随机生成的分类数据集
 绘制随机生成的多标签数据集
 鸢尾花数据集
 Decision Trees
决策树回归
 多输出决策树回归
 理解决策树结构
 绘制在鸢尾花数据集上训练的决策树的决策边界
 通过代价复杂度剪枝对决策树进行后剪枝
 Decomposition
LDA和PCA在鸢尾花数据集上的二维投影比较
 生成示例数据
 人脸数据集分解
 使用FastICA进行盲源分离
 使用字典学习进行图像去噪
 使用概率PCA和因子分析（FA）进行模型选择
 使用预先计算的字典进行稀疏编码
 使用鸢尾花数据集的PCA示例
 因子分析（带旋转）以可视化模式
 增量PCA
核主成分分析
 Developing Estimators
Ensemble methods
AdaBoost 决策树回归
 IsolationForest 示例
 二分类AdaBoost
使用堆叠方法结合预测器
 使用完全随机树的哈希特征变换
 使用并行树森林评估像素重要性
 使用树的森林评估特征重要性
 使用树集成进行特征转换
 单一估计器与袋装法：偏差-方差分解
 单调约束
 多类AdaBoost决策树
 梯度提升中的提前停止
 梯度提升中的类别特征支持
 梯度提升回归
 梯度提升回归的预测区间
 梯度提升袋外估计
 比较随机森林和多输出元估计器
 比较随机森林和直方图梯度提升模型
 直方图梯度提升树的特性
 绘制VotingClassifier的决策边界
 绘制个体和投票回归预测
 绘制由VotingClassifier计算的类别概率
 绘制鸢尾花数据集上树集成的决策边界
 随机森林的袋外误差
 Examples based on real world datasets
使用核PCA进行图像去噪
 使用特征脸和支持向量机进行人脸识别的示例
 使用非负矩阵分解和潜在狄利克雷分配进行主题提取
 压缩感知：具有L1先验（Lasso）的断层扫描重建
 可视化股票市场结构
 文本文档的外存分类
 时间序列预测的滞后特征
 时间相关特征工程
 模型复杂度影响
 物种分布建模
 真实数据集上的异常值检测
 维基百科主特征向量
 预测延迟
 Feature Selection
ANOVA SVM 管道
 F检验和互信息的比较
 单变量特征选择
 基于模型和顺序特征选择
 带交叉验证的递归特征消除
 递归特征消除
 Gaussian Mixture Models
GMM 初始化方法
 GMM 协方差
 变分贝叶斯高斯混合模型的浓度先验类型分析
 高斯混合模型椭圆体
 高斯混合模型正弦曲线
 高斯混合模型的密度估计
 高斯混合模型选择
 Gaussian Process for Machine Learning
不同核函数下高斯过程的先验和后验示例
 使用高斯过程回归（GPR）对莫纳罗亚数据集的CO2水平进行预测
 在 XOR 数据集上展示高斯过程分类 (GPC)
基于高斯过程分类（GPC）的鸢尾花数据集
 核岭回归和高斯过程回归的比较
 离散数据结构上的高斯过程
 高斯过程分类 (GPC) 的概率预测
 高斯过程分类 (GPC) 的等概率线
 高斯过程回归 (GPR) 估计数据噪声水平的能力
 高斯过程回归：基础入门示例
 Generalized Linear Models
20类新闻组数据集上的多分类稀疏逻辑回归
 L1-正则化路径的逻辑回归
 L1惩罚和逻辑回归中的稀疏性
 L2 正则化对岭回归系数的影响
 Lasso 和弹性网络
 Lasso模型选择：AIC-BIC / 交叉验证
 SGD：惩罚
 SGD：最大间隔分离超平面
 Theil-Sen 回归
 Tweedie回归在保险理赔中的应用
 使用LARS的Lasso路径
 使用RANSAC进行稳健的线性模型估计
 使用多项逻辑回归和L1正则化进行MNIST分类
 使用贝叶斯岭回归进行曲线拟合
 使用预计算的Gram矩阵和加权样本拟合弹性网络
 分位数回归
 单类支持向量机与使用随机梯度下降的单类支持向量机
 在鸢尾花数据集上绘制多类SGD
基于L1的稀疏信号模型
 多任务Lasso的联合特征选择
 多项式和样条插值
 带有强异常值的数据集上的Huber回归与岭回归对比
 普通最小二乘法和岭回归方差
 正交匹配追踪
 比较各种在线求解器
 比较线性贝叶斯回归器
 泊松回归和非正态损失
 稀疏性示例：仅拟合特征1和特征2
稠密数据和稀疏数据上的Lasso回归
 稳健线性估计拟合
 线性回归示例
 绘制多项式和一对其余逻辑回归
 绘制岭回归系数与正则化参数的关系
 通过信息准则进行Lasso模型选择
 逻辑函数
 逻辑回归三分类器
 随机梯度下降的早停
 随机梯度下降：凸损失函数
 随机梯度下降：加权样本
 非负最小二乘法
 Inspection
具有多重共线性或相关特征的排列重要性
 机器学习在推断因果效应方面的失败
 线性模型系数解释中的常见陷阱
 置换重要性与随机森林特征重要性（MDI）对比
 部分依赖图和个体条件期望图
 Kernel Approximation
通过多项式核近似实现可扩展学习
 Manifold learning
t-SNE：不同困惑度值对形状的影响
 多维尺度分析
 手写数字的流形学习：局部线性嵌入，Isomap…
流形学习方法的比较
 球面上的流形学习方法
 瑞士卷和瑞士洞降维
 Miscellaneous
RBF核的显式特征映射近似
 ROC 曲线与可视化 API
介绍
 使用多输出估计器进行人脸补全
 使用显示对象进行可视化
 使用部分依赖的高级绘图
 使用随机投影进行嵌入的Johnson-Lindenstrauss界限
 保序回归
 元数据路由
 多标签分类
 异常检测估计器的评估
 显示估计器和复杂的管道
 显示流水线
 核岭回归和支持向量回归的比较
 比较用于异常检测的算法在玩具数据集上的表现
 Missing Value Imputation
使用不同变体的迭代插补法填补缺失值
 在构建估计器之前填补缺失值
 Model Selection
交叉验证评分和GridSearchCV的多指标评估演示
 使用网格搜索进行模型的统计比较
 后处理调整决策函数的截断点
 在 scikit-learn 中可视化交叉验证行为
 多分类接收者操作特性（ROC）
嵌套与非嵌套交叉验证
 平衡模型复杂性和交叉验证得分
 接收者操作特性（ROC）与交叉验证
 文本特征提取和评估的示例管道
 检测错误权衡（DET）曲线
 欠拟合与过拟合
 混淆矩阵
 类似然比率用于衡量分类性能
 精确率-召回率
 绘制交叉验证预测
 绘制学习曲线和检查模型的可扩展性
 绘制验证曲线
 网格搜索与交叉验证的自定义重拟合策略
 网格搜索与逐步减半的比较
 训练误差与测试误差
 调整决策阈值以适应成本敏感学习
 候选人数和每次迭代的资源量
 通过排列检验分类评分的显著性
 随机搜索与网格搜索在超参数估计中的比较
 Multiclass methods
多类训练元估计器概述
 Multioutput methods
使用分类器链进行多标签分类
 Nearest Neighbors
TSNE中的近似最近邻
 使用局部离群因子（LOF）进行新颖性检测
 使用局部离群因子（LOF）进行离群点检测
 使用邻域成分分析进行降维
 最近质心分类
 最近邻分类
 最近邻回归
 核密度估计
 比较有无邻域成分分析的最近邻分类
 物种分布的核密度估计
 简单的一维核密度估计
 缓存最近邻
 邻域成分分析示例
 Neural Networks
MNIST上MLP权重的可视化
 多层感知器中的正则化变化
 对比MLPClassifier的随机学习策略
 用于数字分类的受限玻尔兹曼机特征
 Pipelines and composite estimators
使用Pipeline和GridSearchCV选择降维方法
 具有异构数据源的列转换器
 带有混合类型的列转换器
 流水线：将PCA和逻辑回归连接起来
 转换回归模型中的目标变量的效果
 连接多种特征提取方法
 Preprocessing
使用KBinsDiscretizer离散连续特征
 将数据映射到正态分布
 展示KBinsDiscretizer的不同策略
 比较不同缩放器对含有异常值的数据的影响
 特征离散化
 特征缩放的重要性
 目标编码器与其他编码器的比较
 目标编码器的内部交叉拟合
 Semi Supervised Classification
半监督分类器与SVM在鸢尾花数据集上的决策边界
 文本数据集上的半监督分类
 标签传播学习复杂结构
 标签传播数字主动学习
 标签传播数字：展示性能
 阈值变化对自训练的影响
 Support Vector Machines
RBF SVM 参数
 SVM 平局打破示例
 SVM 边界示例
 SVM-Anova：带有单变量特征选择的SVM
SVM：加权样本
 SVM：最大间隔分离超平面
 SVM：用于不平衡类别的分离超平面
 使用不同SVM核函数绘制分类边界
 使用线性和非线性核的支持向量回归 (SVR)
使用非线性核（RBF）的单类SVM
在 LinearSVC 中绘制支持向量
 在鸢尾花数据集上绘制不同的SVM分类器
 带有自定义核函数的SVM
缩放SVC的正则化参数
 Tutorial exercises
数字分类练习
 糖尿病数据集上的交叉验证练习
 Working with text documents
使用k-means聚类文本文档
 使用稀疏特征对文本文档进行分类
 特征哈希器和字典向量化器比较

关注

13
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦

自从有了想翻译scikit-learn官方文档的想法，已经有了半年时间，现在终于翻译和校验完了。由于精力有限，难免会有一些错误，请大家见谅。scikit-learn是机器学习领域最重要的工具，但由于一些大量的专业词汇，导致阅读会有一些缓慢，通过翻译了中文文档，可以快速了解相关知识，也可以跟官网的对应网页找到对应。希望能帮助到数据挖掘、机器学习领域学习的同学。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数智笔记 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。