菜鸟Octopus-CSDN博客

原创 LightGBM 的完整解释 - 最快的梯度提升模型

在寻找最佳特征值来分割树节点时，LightGBM使用特征值直方图，并尝试所有直方图bin值，而不是尝试所有可能的特征值，因此可以减少寻找最佳特征吐出值的时间和计算量。例如，给定下面的年龄特征，将直方图离散特征值放入不同的范围箱中，因此我们可以使用像Age⩽30，Age⩽40，，，，Age⩽100这样的吐槽标准，而不是尝试像Age这样的所有可能的年龄值⩽31、年龄⩽32 等。一般来说，GOSS的主要思想是，在训练下一个集成树之前，我们保留梯度较大的训练实例，并丢弃一些梯度较小的训练实例。

2023-10-29 21:23:24 6579

原创 XGboost进行时间序列预测

XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。XGBoost提供并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决数十亿个示例之外的问题。

2020-11-19 10:39:06 7365 3

原创 6-3.使用GPU训练模型

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。深度学习的训练过程常常非常耗时，一个模型训练几个小时是家常便饭，训练几天也是常有的事情，有时候甚至要训练几十天。训练过程的耗时主要来自于两个部分，一部分来自数据准备，另一部分来自参数迭代。

2024-07-14 15:45:14 1082

原创 5-4.TensorBoard可视化

Pytorch中利用TensorBoard可视化的大概过程如下：首先在Pytorch中指定一个目录创建一个torch.utils.tensorboard.SummaryWriter日志写入器。然后根据需要可视化的信息，利用日志写入器将相应信息日志写入我们指定的目录。最后就可以传入日志目录作为参数启动TensorBoard，然后就可以在TensorBoard中愉快地看片了。我们主要介绍Pytorch中利用TensorBoard进行如下方面信息的可视化的方法。

2024-07-11 22:27:50 1164

原创 5-3.损失函数

自定义损失函数接收两个张量y_pred,y_true作为输入参数，并输出一个标量作为损失函数值。也可以对nn.Module进行子类化，重写forward方法实现损失的计算逻辑，从而得到损失函数的类的实现。下面演示两个比较著名的范例。下面是一个Focal Loss的自定义实现示范。Focal Loss是一种对binary_crossentropy的改进损失函数形式。它在样本不均衡和存在较多易分类的样本时相比binary_crossentropy具有明显的优势。

2024-07-10 22:51:15 1197

原创 5-2.模型层

如果Pytorch的内置模型层不能够满足需求，我们也可以通过继承nn.Module基类构建自定义的模型层。实际上，pytorch不区分模型和模型层，都是通过继承nn.Module进行构建。因此，我们只要继承nn.Module基类并实现forward方法即可自定义模型层。下面是Pytorch的nn.Linear层的源码，我们可以仿照它来自定义模型层。

2024-07-10 16:36:12 836

原创 5-1.Dataset和DataLoader

下面我们通过另外一种方式，即继承 torch.utils.data.Dataset 创建自定义数据集的方式来对 cifar2构建数据管道。

2024-07-09 18:47:34 1171

原创 4-3.nn.functional和nn.Module

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-07-09 10:36:32 906

原创 4-2.张量的数学运算

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-07-08 21:17:12 1129

原创 2-3.动态计算图

Pytorch的计算图由节点和边组成，节点表示张量或者Function，边表示张量和Function之间的依赖关系。Pytorch中的计算图是动态图。这里的动态主要有两重含义。第一层含义是：计算图的正向传播是立即执行的。无需等待完整的计算图创建完毕，每条语句都会在计算图中动态添加节点和边，并立即执行正向传播得到计算结果。第二层含义是：计算图在反向传播后立即销毁。下次调用需要重新构建计算图。

2024-07-02 17:08:51 1013

原创 1-4.时间序列数据建模流程范例

使用Pytorch通常有三种方式构建模型：使用nn.Sequential按层顺序构建模型，继承nn.Module基类构建自定义模型，继承nn.Module基类构建模型并辅助应用模型容器进行封装。此处选择第二种方式构建模型。# 3层lstmreturn yprint(net)Net(

2024-07-01 21:15:37 1359

原创 1-1.结构化数据建模流程范例

使用Pytorch通常有三种方式构建模型：使用nn.Sequential按层顺序构建模型，继承nn.Module基类构建自定义模型，继承nn.Module基类构建模型并辅助应用模型容器进行封装。此处选择使用最简单的nn.Sequential，按层顺序模型。

2024-06-30 22:07:15 1100

原创 XGboost详解

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。XGBoost（eXtreme Gradient Boosting）是一个高效的机器学习库，也是一种基于梯度提升决策树（Gradient Boosting Decision Tree）的集成学习算法，专为提升树算法的性能和速度而设计。

2024-06-28 10:47:20 708

原创 CatBoost原理介绍

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-06-28 09:53:49 1111

原创 LightGBM算法与XGboost对比

论文地址：《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》：https://proceedings.neurips.cc/paper_files/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf。

2024-06-27 19:11:19 1910

原创为什么LightGBM如此之快

文章最前：我是Octopus，这个名字来源于我的中文名–章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人github；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-05-30 11:28:25 844

原创 DataFrame—数据汇总8

我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-05-27 19:30:00 933

原创 DataFrame—数据汇总4

我是Octopus，这个名字来源于我的中文名--章鱼；我热爱编程、热爱算法、热爱开源。所有源码在我的个人；这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。

2024-05-24 18:53:23 918

原创 DataFrame窗口函数操作

DataFrame窗口函数操作

2023-10-19 22:43:06 942

原创测试PySpark

在这里，通过它写pyspark单元测试，看这个代码通过PySpark built，下载该目录代码，查看JIRA 看板票的pyspark测试

2023-10-16 21:00:00 1660

原创 Spark上使用pandas API快速入门

这是 Spark 上的 pandas API 的简短介绍，主要面向新用户。本笔记本向您展示 pandas 和 Spark 上的 pandas API 之间的一些关键区别。这博客是记录我学习的点点滴滴，如果您对 Python、Java、AI、算法有兴趣，可以关注我的动态，一起学习，共同进步。通过传递可转换为类似系列的对象字典来创建 pandas-on-Spark DataFrame。从 Spark DataFrame 创建 pandas-on-Spark DataFrame。以下是如何显示下面框架中的顶行。

2023-10-14 01:00:00 1171

原创 PySpark 概述

PySpark 是 Apache Spark 的 Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。它还提供了一个 PySpark shell，用于交互式分析您的数据。

2023-10-12 21:36:03 873

原创 sklearn Preprocessing 数据预处理功能

scikit-learn`（或`sklearn`）的数据预处理模块提供了一系列用于处理和准备数据的工具。- `StandardScaler`: 将数据进行标准化，使得每个特征的均值为0，方差为1。- `MinMaxScaler`: 将数据缩放到指定的最小值和最大值之间（通常是0到1）。- `RobustScaler`: 对数据进行缩放，可以抵抗异常值的影响。- `RFE`（递归特征消除）：逐步选择特征，通过迭代来识别最重要的特征。- `MaxAbsScaler`: 将数据按特征的绝对值最大缩放。

2023-08-23 22:15:00 1328

原创 Spark SQL优化：NOT IN子查询优化解决

有如下的数据查询场景。

2023-08-16 17:11:33 1724

原创 Hive on Spark调优（大数据技术6）

若参与join的表均为分桶表，且关联字段为分桶字段，且分桶字段是有序的，且大表的分桶数量是小表分桶数量的整数倍。此时，就可以以分桶为单位，为每个Map分配任务了，Map端就无需再缓存小表的全表数据了，而只需缓存其所需的分桶。Map端负责读取参与join的表的数据，并按照关联字段进行分区，将其发送到Reduce端，Reduce端完成最终的关联操作。若参与join的表中，有n-1张表足够小，Map端就会缓存小表全部数据，然后扫描另外一张大表，在Map端完成关联操作。162900000000（约160g）

2023-05-19 23:30:00 1294

原创 Hive on Spark调优（大数据技术3）

在将NodeManager的总内存平均分配给每个Executor，最后再将单个Executor的内存按照大约10:1的比例分配到spark.executor.memory和spark.executor.memoryOverhead。动态分配可根据一个Spark应用的工作负载，动态的调整其所占用的资源（Executor个数）。此处的Executor个数是指分配给一个Spark应用的Executor个数，Executor个数对于Spark应用的执行速度有很大的影响，所以Executor个数的确定十分重要。

2023-05-17 07:30:00 1266

pokemon-datq.csv数据

xgboost时间序列预测资源

神经网络工具用法，数据在另外一个文档中

第三章 PyTorch基础：Tensor和Autograd

pytorch快速入门文件

pyspark基础知识

lightGBM预测notebook代码

空空如也