为帮助选手们更好地备战赛事,2021腾讯广告算法大赛官方于5月10日至5月12日每晚七点,开启了“视”界杯系列专题直播活动。在5月12日的直播中,腾讯大数据高级研究员孙瑞鸿,分享了“Angel使用操作介绍及答疑”,并在线解答了选手们对Angel平台使用的相关问题。快来看看,以下这些问题,你是否也在操作过程中遇到过呢?
直播FAQ
Q1:用Angel如何运行baseline呢,是不是使用Angel就不需要编程?
这取决于所使用的算法,如果这个算法刚好Angel有,就可以直接用Angel不需要编程。如果TI-ONE平台上有这个算法,需要看这个算法是否满足应用需求。如果在应用环节用到了这个算法,就可以直接应用,不用编程。
使用过程中,只需要在画布上进行一些配置就可以运行,对应结果会存储在设置路径下,拿到结果进行后续操作即可。
Q2:在应用TI-ONE过程中,Angel资源怎么配置?
Angel当中会有两部分涉及到资源配置,一个是Spark,一个是Angel PS。
对于一般的算法来说,例如比较简单的机器学习算法,在模型不是特别大的情况下,只要考虑数据的大小,一般会在计算好数据大小的情况下,配置2-3倍即可。
对于像深度学习,还有图算法这样的模型会比较特殊。设置资源时,除了考虑数据的大小,还需要考虑模型的大小。不仅需要去统计数据,还要估算模型参数的范围。根据模型大小还有数据大小,计算它的资源大小,计算好之后大概配置2-3倍左右。
PS和Spark的配置计算会有一点不同,因为我们会在PS上存模型和数据,像图算法,会涉及到点、边和特征,所以会计算的详细一点。针对不同的算法和数据会有所不同,详细计算方法请参考文档。
Q3:如何评估训练所得embedding向量的好坏?
对于有监督的任务来说,可以分一些验证集来去校验模型的结果。
对于无监督的模型来说,需要加一些辅助的措施,用一些聚类的方法将结果可视化出来,看跟我们的预期是否匹配,这样的情况下会需要一些人工的介入。
对于推荐或者是排序、召回等状况,需要根据一定的人工经验来进行判别。
想要复习直播内容的选手们
在公众号后台发送“直播”
可获取往期直播PPT
请各位选手充分消化知识点
全力备战赛事吧!
同时初赛仍在火热进行中
报名日期截止于6月4日
抓紧时间报名参赛吧!