【机器学习】基于天气数据集的XGBoost分类与预测

一、学习知识点概要

首先,点击下载数据文件
今天学习的是基于天气数据集的XGBoost分类实战。
XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度。

二、学习内容

代码

1.导入库

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt

## 数据集划分
from sklearn.model_selection import train_test_split
## 导入XGBoost模型
from xgboost.sklearn import XGBClassifier

2.对离散变量进行编码

  • 分别记录取值为数值(numerical)与非数值的变量
    (或着说特征或着列,都是一种概念)
  • 对离散变量进行编码:XGBoost无法处理字符串类型的数据,我们需要将字符串数据转化为数据。一种方法是把所有的相同类别的特征编码成同一个值,例如女=0,男=1,狗狗=2,所以最后编码的特征值是在 [0,特征数量−1]之间的整数

英语学习时间:category:类别,范畴

# 先纪录数字特征与非数字特征:
numerical_features = [x for x in data.columns if data[x].dtype == np.float]
category_features = [x for x in data.columns if data[x].dtype != np.float and x != 'RainTomorrow']

## 对离散变量进行编码
  • 0
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
支持向量机(Support Vector Machine,SVM)是一种常用的数据分类预测算法。它的基本思想是找到一个最优的超平面,将不同类别的数据点尽可能地分开。 SVM是一种有监督学习算法,可以用于解决二分类和多分类问题。其主要步骤包括:数据预处理、特征选择、选择核函数、模型训练和预测。 首先,需要对数据进行预处理,包括数据清洗、缺失值处理和数据标准化等。然后,通过特征选择的方法,选取对分类结果影响较大的特征。 接下来,需要选择合适的核函数,用来将样本映射到高维空间,以使得数据在高维空间中更容易分开。常用的核函数有线性核、多项式核和高斯核等。 然后,根据选择的核函数,通过训练算法对模型进行训练。训练过程中,SVM会找到一组支持向量,它们是离超平面最近的样本点,用来划分不同类别的数据。 最后,可以使用训练好的模型进行预测。对于新的数据点,通过将其映射到高维空间,并根据其位置与超平面的关系,判断其所属的类别。 SVM在数据分类预测中有着广泛的应用,例如文本分类、图像识别和生物信息学等领域。它在处理高维数据和非线性问题上表现出色,并且具有较好的泛化能力和鲁棒性。 总之,基于SVM的数据分类预测是一种有效的方法,可以帮助我们对未知数据进行分类,从而更好地理解和分析数据

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值