问题描述:
从疝气病症预测病马是否能够存活,可以使用GBDT或者XGBoost。
数据集:
训练集:“horseColicTrain.txt”(299条)
测试集:“horseColicTest.txt”(67条)
数据描述:一共366条样本,其中21个特征表现为疝气病症相关特征,分类标签为{-1, +1}分别表示,死亡和存活。基于21和疝气病症相关个特征,预测病马是否能够存活。部分数据如下:
- 获取数据:使用pandas读取数据,分别读入训练集和测试集;
# 1、读取文件, 并将数据分为训练集和测试集
Train = open('D:/pyCharm/例子/机器语言/horseColicTrain.txt') # 打开训练数据集
Test = open('D:/pyCharm/例子/机器语言/horseColicTest.txt') # 打开测试数据集
x = []
y = [] # 新建两个列表,用于保存训练数据集和标签
for line in Train.readlines(): # 读取训练集文档的每一行
currLine = line.strip().split('\t') # 对当前行进行特征分割
lineArr =