本笔记为阿里云天池龙珠计划python训练营的学习内容,学习链接为:AI训练营Python-阿里云天池 (aliyun.com)
学习知识点概要
一、赛题数据
赛题以数据处理、数据分析、数据可视化为任务,数据集可以报名参与比赛后,查看操作指南进行下载使用,该数据来自FEC平台的公开数据集,源数据包含3张数据表,经过baseline数据处理步骤后合并为一张表,总数据量75w+条,包含8列变量信息,当然,大家可以根据自己想法取出更多列进行数据分析。
数据说明
1.所有候选人信息
该文件为每个候选人提供一份记录,并显示候选人的信息、总收入、从授权委员会收到的转账、付款总额、给授权委员会的转账、库存现金总额、贷款和债务以及其他财务汇总信息。
数据字段描述详细:https://www.fec.gov/campaign-finance-data/all-candidates-file-description/
关键字段说明
- CAND_ID 候选人ID
- CAND_NAME 候选人姓名
- CAND_PTY_AFFILIATION 候选人党派
数据来源:https://www.fec.gov/files/bulk-downloads/2020/weball20.zip
2.候选人委员会链接信息
该文件显示候选人的身份证号码、候选人的选举年份、联邦选举委员会选举年份、委员会识别号、委员会类型、委员会名称和链接标识号。
信息描述详细:https://www.fec.gov/campaign-finance-data/candidate-committee-linkage-file-description/
- CAND_ID 候选人ID
- CAND_ELECTION_YR 候选人选举年份
- CMTE_ID 委员会ID
数据来源:https://www.fec.gov/files/bulk-downloads/2020/ccl20.zip
3.个人捐款档案信息
【注意】由于文件较大,本数据集只包含2020.7.22-2020.8.20的相关数据,如果需要更全数据可以通过数据来源中的地址下载。
该文件包含有关收到捐款的委员会、披露捐款的报告、提供捐款的个人、捐款日期、金额和有关捐款的其他信息。
信息描述详细:https://www.fec.gov/campaign-finance-data/contributions-individuals-file-description/
- CMTE_ID 委员会ID
- NAME 捐款人姓名
- CITY 捐款人所在市
- State 捐款人所在州
- EMPLOYER 捐款人雇主/公司
- OCCUPATION 捐款人职业
数据来源:https://www.fec.gov/files/bulk-downloads/2020/indiv20.zip
学习内容
操作指南
接下来以画月饼过中秋赛事为例,给大家介绍参赛操作指南。
1、点击下方赛事链接进入赛事页面,然后点击报名
,即可参与学习。
https://tianchi.aliyun.com/competition/entrance/531837/introduction
2、点击左侧菜单栏的论坛
,你可以看到官方提供的学习代码,点击进去。
3、然后你就可以看到学习内容啦,先点击右上角的Star
,给官方支持点赞,接下来你点击Fork
,即可将代码和学习内容复制到你的天池实验室了~
4、跳转到你的天池实验室后,你需要点击编辑
进入在线编程学习平台DSW,在那里,你可以学习、调试、修改、运行代码。
5、在DSW里你可以进行代码调试编写,如果赛事是有数据集的,需要你按下图操作先下载数据集,然后开始学习、编辑代码;
如果没有数据集,可以直接开始学习、编辑代码。编辑好代码后,你可以点击运行按钮进行运行,即可输出运行结果。
6、你可以学习一遍后,对赛事提供的baseline进行创新修改。
7、全部修改运行完毕后,你可以点击左侧的天池
,然后点击保存到天池
,就可以将你修改、编写的内容保存到天池实验室了。
8、回到你的天池实验室页面,刷新一下,内容就是你修改过的内容啦,你可以将你修改后的内容分享到技术圈,在实验室页面点击发布到技术圈
即可,官方工作人员将根据大家发布内容的质量和受喜爱度进行奖励发放。
学习问题与解答
一、赛题背景
Python入门系列主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理、数据探索与清洗、数据分析、数据可视化四部分,利用pandas、matplotlib、wordcloud等第三方库带大家玩转数据分析~还有丰富礼品等你来领取哦~
针对数据新人开设的实战练习专场,以有趣主题作为实践场景,提供详尽入门教程以及DSW算力资源,手把手教你学习Python语法。天池希望此赛事能成为高校备受热捧Python实战课程,帮助更多学生掌Python技能、增加实战项目经验。
本期由开源学习组织Datawhale主办, 欢迎更多合作方加入开源学习的大家庭。
二、赛制说明
本场比赛长期开放,报名和参赛无时间限制,具体如何参赛、操作可以查看赛事操作指南。
新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及一些核心的思路等内容。
学习思考与总结
好好学习,少划水