机器学习赛事：快来一起挖掘幸福感

最新推荐文章于 2021-11-22 19:55:17 发布

Armin Engineer

最新推荐文章于 2021-11-22 19:55:17 发布

阅读量604

点赞数 1

文章标签：机器学习人工智能 big data

本文链接：https://blog.csdn.net/weixin_47337408/article/details/121135661

版权

本文是阿里云天池龙珠计划机器学习训练营的学习笔记，涵盖了赛题介绍、数据处理和模型搭建。作者通过赛题理解、数据探索与可视化、特征工程，逐步构建模型，同时感谢论坛分享提供帮助。

摘要由CSDN通过智能技术生成

快来一起挖掘幸福感（完整篇）

本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：AI训练营机器学习-阿里云天池

赛题介绍（虽然上面链接里已经有了赛题介绍，但我还是把它摘抄下来了，绝对不是水字数（手动狗头））
理解数据，并进行初步探索和可视化
特征工程
模型搭建

特别说明：由于我目前学识尚浅，所以为了提高精确度，在模型搭建部分参考了论坛上一些坛友的作品，在此特别感谢他们的分享。

在使用代码时，我也在其中将自己学习时的理解注释在旁边，如果你也是第一次接触到这些模块，可能可以给你提供帮助。

一、赛题介绍

赛题背景
在社会科学领域，幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣；同时与大家生活息息相关，每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性，生活中是不是将多一些乐趣；如果能找到影响幸福感的政策因素，便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地，主要采用了线性回归和逻辑回归的方法，在收入、健康、职业、社交关系、休闲方式等经济人口因素；以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。
赛题尝试了 幸福感预测这一经典课题，希望在现有社会科学研究外有其他维度的算法尝试，结合多学科各自优势，挖掘潜在的影响因素，发现更多可解释、可理解的相关关系。
赛题说明
赛题使用公开数据的问卷调查结果，选取其中多组变量，包括 个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、 家庭变量（父母、配偶、子女、家庭资本等等）、 社会态度（公平、信用、公共服务等等），来预测其对 幸福感的评价。
幸福感预测的准确性不是赛题的唯一目的，更希望选手对变量间的关系、变量群的意义有所探索与收获。
数据说明
考虑到变量个数较多，部分变量间关系复杂，数据分为 完整版和 精简版两类。可从精简版入手熟悉赛题后，使用完整版挖掘更多信息。complete文件为变量完整版数据，abbr文件为变量精简版数据。
index文件中包含每个变量对应的问卷题目，以及变量取值的含义。
survey文件是数据源的原版问卷，作为补充以方便理解问题背景。
数据来源：赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查（CGSS）》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为 多阶分层抽样的 截面面访调查。
外部数据：赛题以数据挖掘和分析为出发点，不限制外部数据的使用，比如宏观经济指标、政府再分配政策等公开数据，欢迎选手交流分享。
评测指标
提交结果为csv文件，其中包含id和happiness的预测值两列。
分数计算公式：

其中n代表测试集样本数，yi代表第i个样本的预测值，y∗代表真实值。

赛题相关数据请前往阿里云天池获取

快来一起挖掘幸福感！赛题与数据-天池大赛-阿里云天池tianchi.aliyun.com/competition/entrance/231702/information正在上传…重新上传取消

2、数据处理

# 导入整个项目所需要用到的包
import os
import time 
import pandas as pd
import nu

最低0.47元/天解锁文章

Armin Engineer

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习赛事：快来一起挖掘幸福感

快来一起挖掘幸福感（完整篇）本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：AI训练营机器学习-阿里云天池赛题介绍（虽然上面链接里已经有了赛题介绍，但我还是把它摘抄下来了，绝对不是水字数（手动狗头））理解数据，并进行初步探索和可视化特征工程模型搭建特别说明：由于我目前学识尚浅，所以为了提高精确度，在模型搭建部分参考了论坛上一些坛友的作品，在此特别感谢他们的分享。在使用代码时，我也在其中将自己学习时的理解注释在旁边，如果你也是第一次接触到这些模块，可能可以给你
复制链接

扫一扫