PyCaret
文章平均质量分 90
PyCaret介绍和相关特性应用介绍
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
工具系列:PyCaret介绍_ 异常检测示例
该函数初始化训练环境并创建转换流水线。在执行任何其他函数之前,必须调用设置函数。它只接受一个必需的参数:数据。所有其他参数都是可选的。# 设置数据和会话ID要访问由设置函数创建的所有变量,例如转换后的数据集、随机状态等,您可以使用get_config方法。# 获取所有可用的配置信息 get_config(){'USI','X','X_train','data','dataset','exp_id','idx','memory','seed','train',原创 2023-12-20 10:41:46 · 996 阅读 · 0 评论 -
工具系列:PyCaret介绍_用外生变量单变量时间序列预测
在这组笔记本中,我们将介绍使用外生变量进行建模。我们的行动计划如下:对数据集进行探索性数据分析,以提取关于生成时间序列的过程的有价值的见解。构建一个基准模型(不包含外生变量的单变量模型)用于基准测试。构建一个包含所有外生变量的单变量模型,以检查最佳性能。评估带有外生变量的模型,并讨论任何潜在问题。克服上述识别出的问题。使用最佳模型进行未来预测。使用自动化时间序列建模(AutoML)复制流程。原创 2023-12-22 00:23:09 · 1154 阅读 · 0 评论 -
工具系列:PyCaret介绍_基于Dask搭建分布式计算集群
一般单个机器的内存在64G,由于建模需要,可能数据量级别可能再100G以上超过单机限制,所以需要分布式集群去处理大规模数据。为了提升计算效率,充分利用已有计算资源,可以调用多个服务器多核去处理大规模数据。Dask是基于资源管理器下游的应用,可以把虚拟机的资源整合成分布式集群,Pycaret通过dask做机器学习计算。https://www.dask.orghttp://www.pycaret.org/2、配置Dask集群(1)主服务器配置(2)从服务器配置3、安装Pycar原创 2023-11-15 06:02:10 · 412 阅读 · 0 评论 -
工具系列:PyCaret介绍_单变量时间序列代码示例
该函数初始化训练环境并创建转换流水线。在执行PyCaret中的任何其他函数之前,必须调用设置函数。设置只有一个必需的参数,即数据。所有其他参数都是可选的。# 设置数据集和参数# data: 数据集# fh: 时间序列预测的步长(默认为1)# session_id: 用于重现实验结果的随机种子(默认为None)为了访问由设置函数创建的所有变量,例如转换后的数据集、随机状态等,您可以使用get_config方法。# 获取所有可用的配置信息 get_config(){'USI','X',原创 2023-12-21 08:15:16 · 1113 阅读 · 0 评论 -
工具系列:PyCaret介绍_二分类模型
setup函数在 PyCaret 中初始化实验,并根据传入函数的所有参数创建转换流水线。在执行任何其他函数之前,必须调用setup函数。data和target。所有其他参数都是可选的,用于配置数据预处理流水线。# 使用setup函数对数据进行预处理和设置# 参数data表示要处理的数据# 参数target表示目标变量的名称,即要预测的变量# 参数session_id表示设置的会话ID,用于重现结果要访问由设置函数创建的所有变量,例如转换后的数据集、随机状态等,您可以使用get_config方法。原创 2023-12-20 10:27:54 · 1083 阅读 · 0 评论 -
工具系列:PyCaret 介绍_聚类算法案例
PyCaret 是一个开源的、低代码的 Python 机器学习库,可以自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,可以大幅加快实验周期并提高工作效率。与其他开源机器学习库相比,PyCaret 是一个替代低代码库,可以用几行代码代替数百行代码。这使得实验速度指数级增长,效率更高。PyCaret 本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray等)的 Python 封装。原创 2023-12-19 10:49:49 · 1195 阅读 · 1 评论 -
工具系列:PyCaret介绍_多分类代码示例
这个函数在PyCaret中初始化实验,并根据传入函数的所有参数创建转换流水线。在执行任何其他函数之前,必须调用设置函数。data和target。所有其他参数都是可选的,并用于配置数据预处理流水线。# 设置数据集和目标变量# data: 数据集# target: 目标变量,即要预测的变量# session_id: 用于重现实验结果的随机种子要访问由设置函数创建的所有变量,例如转换后的数据集、随机状态等,您可以使用get_config方法。# 获取所有可用的配置信息 get_config()原创 2023-12-19 13:22:02 · 2752 阅读 · 0 评论 -
工具系列:PyCaret介绍_工具安装
在setup中使用 use_gpu=True即可。为了防止安装包冲突,推荐虚拟环境安装。原创 2023-11-22 12:56:28 · 579 阅读 · 0 评论 -
工具系列:PyCaret介绍_函数中文速查表
Pycaret函数中文速查表,包含数据初始化参数、函数列表、模型列表、绘图列表。可以快速查找自己需要函数。原创 2023-11-24 10:37:40 · 1022 阅读 · 1 评论 -
工具系列:PyCaret介绍_回归模型示例
setup函数在 PyCaret 中初始化实验,并根据传入函数的所有参数创建转换流水线。在执行任何其他函数之前,必须调用setup函数。data和target。所有其他参数都是可选的,用于配置数据预处理流水线。# 使用setup函数对数据进行预处理和设置# 参数data表示要处理的数据# 参数target表示目标变量的名称,即要预测的变量# 参数session_id表示设置的会话ID,用于重现结果要访问由设置函数创建的所有变量,例如转换后的数据集、随机状态等,您可以使用get_config方法。原创 2023-12-19 19:30:18 · 1095 阅读 · 0 评论 -
工具系列:PyCaret介绍_编写和训练自定义机器学习模型
到目前为止,我们已经看到了如何对PyCaret中所有可用的模型进行训练和模型选择。然而,PyCaret对于自定义模型的工作方式完全相同。只要你的估计器与sklearn API风格兼容,它就会以相同的方式工作。让我们看几个例子。在我展示如何编写自己的自定义类之前,我将首先演示如何使用自定义的非sklearn模型(即不在sklearn或pycaret的基本库中的模型)。原创 2023-12-25 01:39:12 · 1300 阅读 · 0 评论 -
工具系列:PyCaret介绍_模型训练详细教程
返回目录当您只运行时,它将使用所有默认的超参数设置来训练决策树。如果您想要更改它,只需在函数中传递属性即可。# 导入数据集# 初始化设置# 训练决策树模型# 输出决策树模型的参数print(dt)返回目录您可以使用自己的自定义模型进行训练,或使用其他不属于 pycaret 的库中的模型。只要它们的 API 与sklearn保持一致,就可以轻松使用。# 导入数据集# 初始化设置# 导入自定义模型# 训练自定义模型# 创建了一个名为sc_trained的变量,用于存储训练好的符号分类器模型。原创 2023-12-22 15:33:31 · 1748 阅读 · 0 评论 -
工具系列:PyCaret介绍_Fugue 集成_Spark、Dask分布式训练
您可以像以前一样添加自定义指标。但是为了使评分器可分发,它必须是可序列化的。一个常见的函数应该没问题,但是如果在函数内部使用了一些不可序列化的全局变量(例如一个RLock对象),可能会引发问题。因此,请尽量使自定义函数独立于全局变量。# 定义一个名为score_dummy的函数,用于计算模型的得分# 参数y_true表示真实值,y_pred表示预测值,axis表示计算得分的轴return 0.0# 添加一个名为'mydummy'的指标# 参数id表示指标的唯一标识符# 参数name表示指标的名称。原创 2023-12-21 10:57:10 · 1261 阅读 · 0 评论 -
工具系列:PyCaret介绍_数据预处理
由于各种原因,数据集可能具有缺失值或空记录,通常编码为空白或NaN。大多数机器学习算法无法处理缺失或空白的值。删除具有缺失值的样本是有时使用的基本策略,但它的代价是丢失可能的有价值数据以及相关信息或模式。更好的策略是插补缺失值。要使用的插补类型。它可以是iterative。如果为 None,则不执行缺失值的插补。数值列的插补策略。当时忽略。分类列的插补策略。当时忽略。当时忽略。Regressor,用于对数值特征中的缺失值进行迭代插补。如果为 None,则使用 LGBClassifier。当时忽略。原创 2023-11-22 13:18:06 · 1559 阅读 · 0 评论