机器学习赛事:快来一起挖掘幸福感

快来一起挖掘幸福感(完整篇)

本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容,学习链接为:AI训练营机器学习-阿里云天池

  • 赛题介绍(虽然上面链接里已经有了赛题介绍,但我还是把它摘抄下来了,绝对不是水字数(手动狗头))
  • 理解数据,并进行初步探索和可视化
  • 特征工程
  • 模型搭建

特别说明:由于我目前学识尚浅,所以为了提高精确度,在模型搭建部分参考了论坛上一些坛友的作品,在此特别感谢他们的分享。

在使用代码时,我也在其中将自己学习时的理解注释在旁边,如果你也是第一次接触到这些模块,可能可以给你提供帮助。

一、赛题介绍

赛题背景
在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。
赛题尝试了 幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。
赛题说明
赛题使用公开数据的问卷调查结果,选取其中多组变量,包括 个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、 家庭变量(父母、配偶、子女、家庭资本等等)、 社会态度(公平、信用、公共服务等等),来预测其对 幸福感的评价。
幸福感预测的准确性不是赛题的唯一目的,更希望选手对变量间的关系、变量群的意义有所探索与收获。
数据说明
考虑到变量个数较多,部分变量间关系复杂,数据分为 完整版精简版两类。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息。complete文件为变量完整版数据,abbr文件为变量精简版数据。
index文件中包含每个变量对应的问卷题目,以及变量取值的含义。
survey文件是数据源的原版问卷,作为补充以方便理解问题背景。
数据来源:赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为 多阶分层抽样截面面访调查。
外部数据:赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政策等公开数据,欢迎选手交流分享。
评测指标
提交结果为csv文件,其中包含id和happiness的预测值两列。
分数计算公式:
 
其中n代表测试集样本数,yi代表第i个样本的预测值,y∗代表真实值。

赛题相关数据请前往阿里云天池获取

快来一起挖掘幸福感!赛题与数据-天池大赛-阿里云天池​tianchi.aliyun.com/competition/entrance/231702/information正在上传…重新上传取消​

2、数据处理

# 导入整个项目所需要用到的包
import os
import time 
import pandas as pd
import num
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值