机器学习赛事：快来一起挖掘幸福感 — 阿里云天池

你别说了多动脑子

已于 2022-11-08 08:42:18 修改

阅读量687

点赞数

分类专栏：机器学习阿里云天池文章标签： python

于 2021-01-11 22:11:43 首次发布

本文链接：https://blog.csdn.net/weixin_49340599/article/details/112493286

版权

本文介绍了在阿里云天池的机器学习赛事中，如何利用KNN填充数据缺失值，并通过Logistic Regression进行分类预测。作者在实践过程中遇到预测结果与实际值不符的问题，探讨了可能存在的问题和解决方案。

摘要由CSDN通过智能技术生成

概述

学习地址：
https://tianchi.aliyun.com/specials/promotion/aicampml?invite_channel=3&accounttraceid=baca918333cb45008b70655b544a5aeadgkm
学习内容：机器学习赛事：快来一起挖掘幸福感
思路：根据之前所学的内容，先用KNN聚类进行缺失值补充，然后使用logsitic回归进行分类和预测。
问题：最终的test组的y值都是5，但是我预测出来都是4。不确定是中间步骤出问题了，还是logistic回归分类在这个例子中不适用。
最终结果全不一样就离谱：我的预测都是4，实际值都是5。

一、数据处理

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

train_abbr = pd.read_csv(r'D:\学习\数据\快来挖掘幸福感数据\happiness_train_abbr.csv')
train = pd.read_csv(r'D:\学习\数据\快来挖掘幸福感数据\happiness_train_complete.csv',encoding='GBK')
test_abbr = pd.read_csv(r'D:\学习\数据\快来挖掘幸福感数据\happiness_test_abbr.csv',encoding='ISO-8859-1')
test = pd.read_csv(r'D:\学习\数据\快来挖掘幸福感数据\happiness_test_complete.csv',encoding='GBK')

# 将无效统计数据标记为nan
train = train.replace([-8, -1, -2, -3], np.nan)
((train == -8) | (train == -1) | (train == -2) | (train == -3)).sum().sum()

# 查看所有特征的缺失值个数和缺失率
for i in range(train.shape[1]):
    n_miss = train.iloc[:,i].isnull().sum()
    perc = (n_miss / train.shape[0]

最低0.47元/天解锁文章

你别说了多动脑子

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
机器学习赛事：快来一起挖掘幸福感 — 阿里云天池

概述学习地址：https://tianchi.aliyun.com/specials/promotion/aicampml?invite_channel=3&accounttraceid=baca918333cb45008b70655b544a5aeadgkm学习内容：机器学习赛事：快来一起挖掘幸福感思路：根据之前所学的内容，先用KNN聚类进行缺失值补充，然后使用logsitic回归进行分类。问题：最终的test组的y值都是5，但是我预测出来都是4。不确定是中间步骤出问题了
复制链接

扫一扫

专栏目录