兔兔爱学习兔兔爱学习-CSDN博客

原创模型筛选-回归模型

model_GradientBoostingRegressor = ensemble.GradientBoostingRegressor(n_estimators=100)#这里使用100个决策树。model_AdaBoostRegressor = ensemble.AdaBoostRegressor(n_estimators=50)#这里使用50个决策树。####3.9ExtraTree极端随机树回归########3.6Adaboost回归########3.8Bagging回归####

2024-05-20 17:09:13 413

原创模型筛选学习

本文从理论前提、代码实践、内容总结三个角度讲述预测在初步阶段进行模型筛选的过程。一、理论前提####决策树回归####图片: https://uploader.shimo.im/f/BM291LSfHSVSHvyX.png!thumbnail?基于 if-then-else 规则的有监督学习算法，决策树的这些规则通过训练得到，而不是人工制定的。决策树是最简单的机器学习算法，它易于实现，可解释性强，完全符合人类的直观思维，有着广泛的应用。

2024-05-16 20:05:41 540

原创小样本学习

小样本学习的概念最早从计算机视觉(computer vision)[8]领域兴起, 近几年受到广泛关注, 在图像分类任务中已有很多性能优异的算法模型[9-11].但是在自然语言处理领域(natural language processing)[12]的发展较为缓慢, 原因在于图像和语言特性不同.图像相比文本更为客观, 所以当样本数量较少时, 图像的特征提取比文本更加容易[13].不过近年来, 小样本学习在自然语言处理领域也有了一些研究和发展[14-16].根据所采用方法的不同, 本文将小样本学习分为基于模型

2024-05-07 10:54:34 896

原创 vscode连接服务器的docker步骤

进入容器之后，操作方式与本地windows系统操作逻辑一样；容器内部结构都能任意查看和使用，创建文件及编写python脚本都可以直接使用vs code编辑器进行编辑和调试，从而避免使用命令行及vim编辑文件，非常直观且方便~

2024-05-06 16:46:50 350

原创 Prompt engineering

Prompt engineering就像教你成为一位AI模型的指挥家，指挥家要用手中的指挥棒来指挥乐团演奏一首曲子，调整指挥棒的力度和方向，控制乐曲的音乐风格和氛围。希望能进行用户分层；**设计合适的Prompt：**Prompt是指输入给GPT模型的一段文本，可以是问题、提示、描述等。提示词：你是一个文案大师，你现在需要撰写xxx的宣传文案，面向用户的特点是：xxx，文案的要求是：xxx。**引导模型生成特定内容：**通过设计Prompt的方式，可以引导模型生成特定的内容，例如回答问题、描述某个主题等。

2024-05-05 13:27:51 411 1

原创推荐系统的技术栈

排序模型是推荐系统中涵盖的研究方向最多，有非常多的子领域值得研究探索，这也是推荐系统中技术含量最高的部分，毕竟它是直接面对用户，产生的结果对用户影响最大的一层。内容画像会将原关系信息整合，并构建可业务应用的关系知识体系，其次，依赖业务中积累用户行为产生的实体关系数据，本身用户需求的标签信息，一并用于构建业务知识的兴趣图谱，基于同构网络与异构网络表示学习等核心模型，输出知识表示与表达，抽象后的图谱用于文本识别，推荐语义理解，兴趣拓展推理等场景，直接用于兴趣推理的冷启场景已经验证有很不错的收益。

2024-05-03 11:37:19 843

原创推荐系统架构

推荐和搜索系统核心的的任务是从海量物品中找到用户感兴趣的内容。在这个背景下，推荐系统包含的模块非常多，每个模块将会有很多专业研究的工程和研究工程师，作为刚入门的应届生或者实习生很难对每个模块都有很深的理解，实际上也大可不必，我们完全可以从学习好一个模块技术后，以点带面学习整个系统，虽然正式工作中我们放入门每个人将只会负责的也是整个系统的一部分。但是掌握推荐系统最重要的还是梳理清楚整个推荐系统的架构，知道每一个部分需要完成哪些任务，是如何做的，主要的技术栈是什么，有哪些局限和可以研究的问题，能够对我们学习推荐

2024-05-03 11:35:57 408

原创推荐系统的意义

但是那20%的物品其实只能满足一小部分人的需求，对于绝大多数的用户的需求需要从那80%的长尾物品中去满足。个性化推荐系统通过分析用户的行为日志，得到用户当前的甚至未来可能的兴趣，给不同的用户展示不同的(个性化)的页面，来提高网站或者app的点击率、转化率、留存率等指标。物品只是信息生产者的产物，对于信息生产者而言，例如商家、视频创作者等，他们也更希望自己生产的内容可以得到更多的曝光，尤其是对于新来的商家或者视频创作者，这样可以激发他们创作的热情，进而创作出更多的商品或者视频，让更多的用户的需求得到满足。

2024-05-03 11:30:30 461

原创第1章强化学习基础

（4）在强化学习过程中，没有非常强的监督者（supervisor），只有奖励信号（reward signal），并且奖励信号是延迟的，即环境会在很久以后告诉我们之前我们采取的动作到底是不是有效的。当我们采取一个动作后，如果我们使用监督学习，我们就可以立刻获得一个指导，比如，我们现在采取了一个错误的动作，正确的动作应该是什么。强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励。

2024-04-29 14:46:29 150

原创生成模型-扩散模型

训练完毕后，只需要从标准正态分布里随机采样出一个噪声，再利用反向过程里的神经网络把该噪声恢复成一幅图像，就能够生成一幅图片了。设计网络架构时，最重要的是设计学习目标，让网络生成的图像和给定数据集里的图像相似。VAE的做法是使用两个网络，一个学习把图像编码成向量，另一个学习把向量解码回图像，它们的目标是让复原图像和原图像尽可能相似。这样，把某图像变成向量，再用该向量生成图像，就应该得到一幅和原图像一模一样的图像。VAE中，把图像变成向量的网络叫做编码器，把向量转换回图像的网络叫做解码器。

2024-04-25 16:01:27 268

原创 LightGBM训练过程中的‘No further splits with positive gain‘警告解析

虽然这个警告并不一定意味着模型有问题，但我们仍然需要关注模型的性能表现，并根据实际情况进行相应的调整和优化。这个警告信息意味着在构建决策树的过程中，算法没有找到任何能够带来正增益（即提高模型性能）的分裂点。在实际情况中，这个警告往往是因为数据集已经相当纯净，或者模型的复杂度已经足够高，以至于无法再找到更多的有用信息。最后，需要强调的是，机器学习模型的性能优化是一个持续的过程。在实际应用中，我们需要不断尝试不同的方法和参数组合，以找到最适合当前任务和数据集的模型。

2024-04-25 15:47:59 264

原创 LightGBM训练过程中的‘No further splits with positive gain‘警告解析

虽然这个警告并不一定意味着模型有问题，但我们仍然需要关注模型的性能表现，并根据实际情况进行相应的调整和优化。这个警告信息意味着在构建决策树的过程中，算法没有找到任何能够带来正增益（即提高模型性能）的分裂点。在实际情况中，这个警告往往是因为数据集已经相当纯净，或者模型的复杂度已经足够高，以至于无法再找到更多的有用信息。最后，需要强调的是，机器学习模型的性能优化是一个持续的过程。在实际应用中，我们需要不断尝试不同的方法和参数组合，以找到最适合当前任务和数据集的模型。

2024-04-23 10:06:03 287

原创 cannot import name ‘cross_validation’ from ‘sklearn’

在from sklearn import cross_validation时报错，提示错误原因：“cannot import name ‘cross_validation’ from ‘sklearn’”，后来百度才知道sklearn在0.18版本中，cross_validation被废弃了，原来在 cross_validation 里面的函数现在在 model_selection 里面，所以只要将cross_validation替换为model_selection就可以使用，数据信息都是一样的。

2024-04-19 15:31:25 344

原创 TypeError: can‘t convert np.ndarray of type numpy.object_.The only supported types are:

所以，将numpy数组进行强制类型转换成float类型（或者任何pytorch支持的类型：float64, float32, float16, int64, int32, int16, int8, uint8, and bool）即可。trainx = trainx.astype(float) # numpy强制类型转换。由于读入的numpy数组里的元素是object类型，无法将这种类型转换成tensor。

2024-04-16 11:35:05 223

原创 stacking与blending的异同点

stacking是k折交叉验证，元模型的训练数据等同于基于模型的训练数据，该方法为每个样本都生成了元特征，每生成元特征的模型不一样（k是多少，每个模型的数量就是多少）；测试集生成元特征时，需要用到k（k fold不是模型）个加权平均；blending是holdout方法，直接将训练集切割成两个部分，仅10%用于元模型的训练；

2024-04-12 17:08:17 81

原创 stacking学习

KFlod 适用于用户回归类型数据划分stratifiedKFlod 适用于分类数据划分并且在实验中也发现，stratifiedKFlod.split(X_train,y_train)的y_train不可为连续数据，因此无法使用，只能用KFold。

2024-04-12 14:30:19 386

原创 DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the

数据转换警告：当需要一维数组时，传递了列向量y。请将Y的形状更改为（n_samples，），例如使用ravel（）

2024-04-11 15:31:14 91

原创 hyperopt调参lightgbm

参考https://www.jianshu.com/p/017b7b1c505d。

2024-04-10 16:39:53 297

原创 LightGBM

例如，当max_depth=7时，深度树可以获得很好的精度，但是将num_leaves设置为127可能会导致过拟合，将其设置为70或80可能会比深度树获得更好的精度。7、尝试lambda_l1、lambda_l2和min_gain_to_split进行正则化。3、使用min_data_in_leaf和min_sum_hessian_in_leaf。2、使用小的learning_rate和大的num_iteration。3、使用大的num_leaves(可能导致过拟合)

2024-04-10 16:26:12 408 1

原创 Lightgbm的重要参数

如果你设置的深度很深，但又无法向下分裂，LGBM就会提示warning，无法找到可以分裂的了，说明数据质量已经达到了极限了。lambda_l1 和 lambda_l2 对应着 L1 和 L2 正则化，和 XGBoost 的 reg_lambda 和 reg_alpha 是一样的，对叶子节点数和叶子节点权重的惩罚，值越高惩罚越大。一般的搜索范围可以在 (0, 100)。下面是参数的设置，Optuna比较常见的方式suggest_categorical，suggest_int，suggest_float。

2024-04-10 16:25:42 321

原创 Lightgbm的重要参数

如果你设置的深度很深，但又无法向下分裂，LGBM就会提示warning，无法找到可以分裂的了，说明数据质量已经达到了极限了。lambda_l1 和 lambda_l2 对应着 L1 和 L2 正则化，和 XGBoost 的 reg_lambda 和 reg_alpha 是一样的，对叶子节点数和叶子节点权重的惩罚，值越高惩罚越大。一般的搜索范围可以在 (0, 100)。下面是参数的设置，Optuna比较常见的方式suggest_categorical，suggest_int，suggest_float。

2024-04-10 15:55:57 436

原创 lightgbm回归自动调参

X_train, X_test, y_train, y_test=train_test_split(data, target, train_size=0.3)# 数据集划分。

2024-04-10 15:03:45 573

原创 lightgbm中使用“early_stopping_rounds”和“verbose_eval”出现 UserWarning

警告：‘early_stopping_rounds’ 参数已过时，并将在 LightGBM 的未来版本中移除。参数’early_stopping_rounds’ 和’verbose_eval’已被弃用，改为通过“callbacks”参数传入“early_stopping”和“log_evaluation”。警告：‘verbose_eval’ 参数已过时，并将在 LightGBM 的未来版本中移除。替换之前的’verbose_eval’以及’early_stopping_rounds’即可: )

2024-04-10 14:35:30 332

原创 optuna自动调参

【代码】optuna自动调参。

2024-04-10 12:07:08 219

原创 numpy.random.uniform()

numpy.random.uniform()介绍：函数原型： numpy.random.uniform(low,high,size)功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high.参数介绍:low: 采样下界，float类型，默认值为0；high: 采样上界，float类型，默认值为1；size: 输出样本数目，为int或元组(tuple)类型，例如，size=(m,n,k), 则输出 m * n * k 个样本，缺省时输出1个值。

2024-04-09 15:10:54 115

原创 Python random randint() 方法

Python random randint() 方法Python random 模块 Python random 模块Python random.randint() 方法返回指定范围内的整数。randint(start, stop) 等价于 randrange(start, stop+1)。语法random.randint() 方法语法如下：返回值返回指定范围内的整数。实例以下实例返回一个 1 到 9 之间的数字（大于等于 1，小于等于 9 ）：实例。

2024-04-09 15:07:30 172

原创 Python random randint() 方法

Python random randint() 方法Python random 模块 Python random 模块Python random.randint() 方法返回指定范围内的整数。randint(start, stop) 等价于 randrange(start, stop+1)。语法random.randint() 方法语法如下：返回值返回指定范围内的整数。实例以下实例返回一个 1 到 9 之间的数字（大于等于 1，小于等于 9 ）：实例。

2024-04-09 11:44:03 190

原创 np.matrix

class numpy.matrix(data,dtype,copy):返回一个矩阵，其中data为ndarray对象或者字符形式；dtype:为data的type；copy:为bool类型。矩阵的换行必须是用分号(;)隔开，内部数据必须为字符串形式(‘ ’)，矩阵的元素之间必须以空格隔开。矩阵中的data可以为数组对象。

2024-04-09 11:33:30 307

原创 python删除文件

import os。

2024-04-08 17:12:46 123

原创后台运行nohup

将标准错误 2 重定向到标准输出 &1 ，标准输出 &1 再被重定向输入到 runoob.log 文件中。代码在 /home/PyPro/下面。nvidia-smi查看显卡信息。

2024-04-08 16:00:41 124

原创 #返回该目录/文件的大小 du -sh [目录/文件]

du -sh [目录/文件]#返回该目录/文件的大小。

2024-04-03 17:48:09 92

原创 LoRA（Low-Rank Adaptation）

LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大语言模型）的流行技术，最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技术，LoRA 不是调整神经网络的所有参数，而是专注于更新一小部分低秩矩阵，从而大大减少了训练模型所需的计算量。由于 LoRA 的微调质量与全模型微调相当，很多人将这种方法称之为微调神器。

2024-03-26 09:21:27 120

原创数据集相关

【代码】数据集相关。

2024-03-25 17:17:33 116

原创 pandas去掉重复项

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

2024-03-25 14:14:15 116

原创 sklearn

2024-03-25 09:29:08 68

原创离线学习在线学习

同时，它也是更实用的训练算法。分类器根据实例x的真正的类别标签以及罚值对分类器参数进行相应地调整，以更好地预测新的实例。我们的目标是，在整个预测过程中，实例的罚值和尽可能小。准确地说，Online Learning并不是一种模型，而是一种模型的训练方法，Online Learning能够根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化，提高线上预测的准确率。Online Learning的流程包括：将模型的预测结果展现给用户，然后收集用户的反馈数据，再用来训练模型，形成闭环的系统。

2024-03-21 10:48:32 216

空空如也

空空如也