机器学习赛事:快来一起挖掘幸福感

比赛题目赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。数据来源:赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为多阶分层抽样的截面面访调查。外部数据:赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政
摘要由CSDN通过智能技术生成

比赛题目

赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。

数据来源:赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为多阶分层抽样的截面面访调查。

外部数据:赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政策等公开数据

初步分析

  1. 结果要求的是幸福感的评测,看特征happiness这是一个分类变量,但评测标准用的是MSE又是回归评测;
  2. 对于问卷回答形式多是定性的分类变量,只有完整数据集最后的一些public_service等是数值型特征;
  3. 精简数据的特征是几乎全是重要型特征;
  4. 给定的测试数据集都没有目标变量–可以本地使用训练集切分出测试集;

思路:数据简单处理后进行分类变量的数值化(已经数值化了),使用精简数据利用TPOT寻找最优模型,利用最优模型对完整数据进行训练测试。

处理流程及结果

from imblearn.over_sampling import SMOTE
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import MinMaxScaler, OrdinalEncoder
from tpot import TPOTClassifier, TPOTRegressor
from xgboost import XGBRegressor
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings('ignore')  # 直接原数据操作变值的警告
# 数据读入
train = pd.read_csv('../../happiness/happiness_train_complete.csv', encoding='gb2312')
test_source = pd.read_csv('../../happiness/happiness_test_complete.csv', encoding='gb2312')
# print(train.info()) # 观察数据情况
# print(test.info())
# print(train.columns)
# print(test.columns)
# print(train.groupby('happiness')['survey_type'].count())  # 目标数据分布查看

# # 时间序列的转换
# train['survey_time'] = pd.to_datetime(train.survey_time)
# test_source['survey_time'] = pd.to_datetime(test_source.survey_time)
# 无关特征的删除与空值的填充1
train.drop(train.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值