蓝桥杯人工智能赛道进阶重点及笔记(持续更新)

官网:https://www.lanqiao.cn/courses/29224/learning/?id=1723394&compatibility=false

一、集成学习和随机森林方法——特征的重要性

蓝桥杯直通国赛班(人工智能组)_蓝桥杯 - 蓝桥云课

计算现实问题中的特征重要性

让我们考虑一个数据集,这数据集的内容是 Booking.com 和 TripAdvisor.com 上所列旅馆的一些信息,数据集的特征是不同类别(包括服务质量、房间状况、性价比等)的平均评分,目标变量为旅馆在网站上的总评分。首先导入相关库。

# 导入随机森林回归器,这是一种集成学习方法
from sklearn.ensemble.forest import RandomForestRegressor


import numpy as np
import pandas as pd

''' 导入seaborn库,它是一个基于matplotlib的数据可视化库,
了一系列高级接口,用于制作吸引人且信息丰富的统计图形'''
import seaborn as sns

# 从matplotlib库中导入pyplot模块,它提供了类似于MATLAB的绘图框架,适合交互式绘图
from matplotlib import pyplot as plt

'''这行神奇的代码是IPython的魔法命令,
它告诉Jupyter Notebook直接在输出单元格中显示matplotlib图形
而不是创建一个新窗口。这样可以使输出更加整洁,便于在notebook中直接查看图形。'''
%matplotlib inline

集成学习(Ensemble  /ɒnˈsɒmb(ə)l/   Learning),也称为集成方法(Ensemble Method),是一种机器学习技术,它通过结合多个预测模型来提高单个模型的性能。集成学习的核心思想是,通过组合多个弱学习器(base learners),构建出一个强学习器(strong learner),以此来提高模型的准确性和鲁棒性。

集成学习通常分为两大类:

  1. 平行集成(Parallel Ensemble):这类方法中,多个弱学习器并行训练,每个学习器独立地进行预测,最终通过某种规则(如平均、投票等)来合并这些预测结果。常见的平行集成方法包括:

    • Bagging(例如随机森林 RandomForest):通过随机抽样和替换来构建多个不同的训练集,然后对每个训练集训练一个模型,最后通过投票(分类问题)或平均(回归问题)来合并预测结果。
    • Boosting(例如AdaBoost、XGBoost、LightGBM):通过迭代地训练一系列模型,每个模型都试图修正前一个模型的错误,最后通过加权投票࿰
### 蓝桥杯人工智能赛道实战题目概述 蓝桥杯人工智能赛道作为新兴的比赛领域,提供了多个实战题目供参赛者练习和提升技能。这些题目涵盖了从基础的数据处理到复杂的模型构建等多个方面。 #### 图像数据预处理实战题 在图像数据预处理部分,具体要求如下: ```python import cv2 import numpy as np _mean = np.array([0.485, 0.456, 0.406]) _std = np.array([0.229, 0.224, 0.225]) def preprocess_image(image_src): # 1. 图像缩放:将图像大小调整为 (256, 256) image = cv2.resize(image_src, (256, 256)) # 2. 中心裁剪:计算裁剪的起始坐标 startx 和 starty, # 从图像中裁剪出大小为 (224, 224) 的中心区域 startx = 256 // 2 - (224 // 2) starty = 256 // 2 - (224 // 2) image = image[starty:starty + 224, startx:startx + 224] # 3. 标准化:使用代码中设置的 _mean 和 _std 对图像像素进行标准化 image = (image - _mean) / _std return image ``` 此段代码展示了如何对输入图片执行一系列预处理操作,包括尺寸调整、中心裁剪以及基于均值和标准差的标准化[^4]。 #### 账号风险评估实战题 另一个重要的实战题目涉及账号风险评估。在这个任务里,选手被期望能够正确训练一个逻辑回归模型,并将其保存至指定路径 `/home/project` 下名为 `lr_model.pkl` 文件中。这不仅考察了建模能力还测试了基本的文件I/O操作技巧[^3]。 为了更好地准备此类赛事,建议深入研究过往模拟试题及其解法,同时关注最新的机器学习技术进展特别是那些已经被证明有效的集成学习方法的应用案例[^2]。尽管首次举办带来了不确定性,但通过总结经验教训可以有效提高后续参与者的竞争力[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值