1.赛前准备
由于都是第一次比赛,所以全都是没有经验,导致也不知道怎么准备,就随便在网上看了看资料和需要注意的事情
注:需要准备的东西会在下面的 反思点和建议点
2.比赛进程
整个比赛期间,个人工作进度如下表格(红色为团队共同讨论):
时间 | 工作 |
---|---|
10.14 上午 | 拿到题目,将六道题大致浏览一遍,并组内讨论,初步D和E,再细细分析两题后,最终确定做D题 |
10.14 下午 | 将D题仔细分析后,定下规划,在14号将第一题处理 |
10.14 晚上 | 第一题主要是对数据的预处理问题,由于经验不够,基本都是百度搜索,初步使用皮尔逊方法处理 |
10.15 上午 | 在第一题使用皮尔逊方法后,我用TTN对第二题处理(构建预测模型) |
10.15 下午 | 发现TTN处理不了第二问的模型,这其中队友对第一问重新处理同时编写论文 |
10.15 晚上 | 用TTN模型处理第三问 |
10.16 上午 | 得到TTN模型在第三问的测试效果,继续用LoTeNet模型处理第三问 |
10.16 下午 | 用LoTeNet模型处理第三问 |
10.16 晚上 | 用LoTeNet模型处理第三问,并写TTN的模型建立和模型求解 |
10.17 上午 | 得到LoTeNet模型的测试效果,并写LoTeNet的模型建立和模型求解 |
10.17 下午 | 对TTN模型和LoTeNet模型微调,并用最新的第一问的方法,进行数据的筛选,测试模型的效果 |
10.17 晚上 | 测试模型,编写论文,画图 |
10.18 上午 | 测试模型,编写论文,画图 |
题目分析
注:由于我们组研究方向都是张量网络,所以用的都是张量网络模型
3.赛后总结
第一题
由于我们组准备和基础不够,轻视了数据的筛选,实则上,第一题非常的重要,关乎到后面三题中的模型效果,所以一定要提前准备好数据处理的方法
第二题
当时组内手上有MPS,双层MPS,PEPS,TTN,LoTeNet,MLTN,GTNC,HTN模型,但是在对于第二问的预测模型上,我尝试的是TTN,LoTeNet两个模型,开始觉得将分类的改为预测应该是没问题的,但是最后发现这两个模型都不行,主要问题是这两个模型的跟新方式的独特性,他们都是根据求环境张量进行更新,但是求环境张量的时候,能看作标签的是下面图中的IC50_nM或者pIC50:
这和传统的标签1 0有差别,所以当时改完后,发现学不到东西,最终发现原因在于更新方式出现问题。
总结:张量网络中用环境张量更新张量的模型很难改为预测模型,除非将底层和跟新方式全改。
第三题
基本的分类模型都是没问题的,但是当我用了TTN和LoTeNet测试后,五个指标总是后面的三个不是很好,在仔细观察了标签中0,1分布后发现:
标签本身就有比例不平衡的问题,很容易导致测试的结果比训练的好的情况,而且很容易受到训练集数据的影响。
解决方案: Borderline-SMOTE 算法,对少样本类数据进行补充,使得每类数据集都是平衡数据集,实现更好的泛化性能
第四题
问题四也是一个数据筛选的问题,按着要求筛选就行。
4.反思点和建议点
主要是都是第一次参加比赛所以经验等于0,如果下一次的话我觉得会有以下的改进:
1.提前准备好数据预处理的方法和经验与代码比如:筛选,上采样等等(多数为筛选)
2.提前准备好预测模型,分类模型等的代码,最好每个两三个模型
3.整个比赛的节奏将会改变,如:由于代码附件后交,因此需要把心思最主要花在论文上
4.首先应该在数据预处理上下大功夫,模型上不应该有问题(提前熟悉),当然我们这次主要是准备和经验都不够,所以最后晚上的时候感觉到处都没弄好
5.论文中的表格和图很重要,这个是需要花时间和功夫弄的
6.最后一晚上通常是需要通宵的,前几天晚上不需要通宵是因为我们每个人手上都有模型跑,如果对于那种模型从0开始的肯定要天天通宵的(所以想要拿奖肯定需要提前准备好模型)
7.对于研一的新生而言,最好找个参加过(研二或者研三)的带,这样会避开很多坑,同时也会有人来掌握整个节奏,当然如果没有人带,我觉得也应该参加,当然不要抱着获奖的心情,只要最后交一份,然后总结整个过程的得与失,第二年肯定木有问题的!
8.有些模型或者方法很新或者偏的就不需要担心选题简单,因为这个比赛还是主要看方法的,所以把一个简单的题做好也是完全能获奖的
9.有一个人专门写论文,当题目和模型大致确定好,并且开始处理第一问的时候开始写论文
10.个人而言,主要是我本身自己对模型的熟练度还不够,同时代码能力还是不行,这也是导致测试两个模型跑了两天的原因,后面也需要自己不断提升,才能给团队提速提质量。
这也是我第一次参加,肯定还有很多的思考不足,希望下次有机会参加完,再进行总结,可以将更多的理解展现