快来一起挖掘幸福感(完整篇)
本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容,学习链接为:AI训练营机器学习-阿里云天池
- 赛题介绍(虽然上面链接里已经有了赛题介绍,但我还是把它摘抄下来了,绝对不是水字数(手动狗头))
- 理解数据,并进行初步探索和可视化
- 特征工程
- 模型搭建
特别说明:由于我目前学识尚浅,所以为了提高精确度,在模型搭建部分参考了论坛上一些坛友的作品,在此特别感谢他们的分享。
在使用代码时,我也在其中将自己学习时的理解注释在旁边,如果你也是第一次接触到这些模块,可能可以给你提供帮助。
一、赛题介绍
赛题背景
在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。
赛题尝试了 幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。
赛题说明
赛题使用公开数据的问卷调查结果,选取其中多组变量,包括 个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、 家庭变量(父母、配偶、子女、家庭资本等等)、 社会态度(公平、信用、公共服务等等),来预测其对 幸福感的评价。
幸福感预测的准确性不是赛题的唯一目的,更希望选手对变量间的关系、变量群的意义有所探索与收获。
数据说明
考虑到变量个数较多,部分变量间关系复杂,数据分为 完整版和 精简版两类。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息。complete文件为变量完整版数据,abbr文件为变量精简版数据。
index文件中包含每个变量对应的问卷题目,以及变量取值的含义。
survey文件是数据源的原版问卷,作为补充以方便理解问题背景。
数据来源:赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为 多阶分层抽样的 截面面访调查。
外部数据:赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政策等公开数据,欢迎选手交流分享。
评测指标
提交结果为csv文件,其中包含id和happiness的预测值两列。
分数计算公式:
其中n代表测试集样本数,yi代表第i个样本的预测值,y∗代表真实值。
赛题相关数据请前往阿里云天池获取
快来一起挖掘幸福感!赛题与数据-天池大赛-阿里云天池tianchi.aliyun.com/competition/entrance/231702/information正在上传…重新上传取消
2、数据处理
# 导入整个项目所需要用到的包
import os
import time
import pandas as pd
import num