链接:https://www.zhihu.com/question/341190239
编辑:深度学习与计算机视觉
声明:仅做学术分享,侵删
本人是19fall入学phd一枚,即将决定未来的研究方向,现在对深度学习的可解释性方向有点兴趣,但网上听说这个方向是巨坑,所以想听一下各位大神的意见
作者:ninghaoo
https://www.zhihu.com/question/341190239/answer/858780172
不认为这是个坑人的方向,但是确实是个很容易走进误区的方向。
误区1:不搞清楚要面向什么群体。面向没有ML背景的普通用户,或者面向有ML背景的工程师和scientist,甚至面向渴望探寻世界真理宇宙本质的那一帮人(智者或者民科),需要解释的东西是不同的,点技能树时的策略也不同。面向错了对象,往往弄出来的东西也是四不像,普通用户看不懂,scientist觉得你搞得这是啥玩意。我相信这个问题下面的回答一定会有很大分歧。有的人觉得有意义,有人觉得是扯淡方向;有的人觉得压根做不了,有人只是觉得很难;有人以为自己做的东西不是可解释性,有人觉得你做的东西本质上还真就是可解释性。因为不同背景的人听到“可解释性”后脑子里出现的概念是不一样的,对这个领域的expectation也不一样。
误区2:随便有些想法就搞事情。审过很多这个领域的文章(相当一部分是顶会),很多文章都相当不正规。可解释性方向这种不正规的文章比其他领域比例高得多。这类文章给人感觉就是今天上了DL的课,然后课余唠嗑唠出了一个idea然后就随手搞了,reference只列2,3篇解释性的文章,以为把LIME读了,翻了一下几年前那本interpretable ML的book就万事大吉了。没有target model,没有background,没有baseline。没有原点,没有约束。
误区3:没有ML或者DL背景,一上来就做可解释性。私以为可解释性方向非常需要对某一个领域的积淀,或者是理论的积淀。只看可解释性方向的论文,而不看target领域的论文,你会感觉有一个无形的框怎么都走不出去。对于很多领域,通常只需要读本领域的文章,再稍微涉猎其他知识即可。但是假如没有对一个特定目标领域的深刻了解,是很难做出本领域有深度的可解释性文章,很多情况下都是在憋东西出来。
误区4:把interpretation或explanation随便往题目上挂。不展开。
这个方向还有很多问题,比如没有一个统一的问题定义和强大的方法论。以后牛逼的technique或者model出来了或许会有。做实验超级麻烦,毕竟ground truth都没有。有时候不是很容易跟别人sell自己的work,讲得太哲学或者太细节都不好使。你给人讲清楚了,别人觉得你做的东西cheap;你给人讲不清楚,别人就会来语重心长地教育你“连自己的work都讲不清楚说明没搞清楚自己在做啥”。
作者:知乎用户 https://www.zhihu.com/question/341190239/answer/858747945
我觉得可解释性算不上坑人的方向,但是个很难的方向。
想做可解释性的研究,首先要确定自己想做哪一类可解释性,然后想办法完善问题的定义。
很多人对问题还没有个基本的认识,靠一点含糊的直觉就开始做了。这种其实属于自己坑自己。
作者:zzzz
https://www.zhihu.com/question/341190239/answer/793816366
是个很有意思但不是很成熟的方向(没有标准化指标,数据集,甚至定义),所以可以有更多开放的方法有待探索。
具体工作可以参考@周博磊@Qs.Zhang张拳石的文章及分享
而我想突出下可解释性的价值
关于其探讨早在NIPS2017 Lecun就有过很精彩的讨论“is interpreblility neccessary”(对,就是ali在test of time award演讲里把dl喷成炼金术那届),核心观点大致为2点:
con:在任何情况下我们都会选择指标高的模型,不论是否可解释(DL vs logistic regression)
pro:探索模型是否真的学到了有用的pattern而不是overfit到了corner case甚至inductive bias
我个人觉得这2个观点都有不足:
con假设了(offline的)validation指标可以完全代表模型online效果,而缺乏可解释的模型在碰到inductive bias/domain drift时变得十分危险。
pro则时常需要人为干预(再次标注\聚类\猜测channel意义)才能“理解”网络;而更多时候我们需要的不仅仅是理解,而是消除网络不可理解的错误。
所以作为伸手党,我期待接下来的工作能弥补这2点,(如果已有,欢迎指出,我修改答案)即:
1.在最少影响模型效果的前提下,对不同distribution,甚至out-of-distribution的数据均作出合理“解释”
2.根据“解释”做错误分析,(自动)修正出违反commen sense/ prior knowledge的低级错误,从而提高模型鲁棒性
目测能做到以上任何一点都可以横吃工业学术两届,前途无量。
作者:Qs.Zhang张拳石
https://www.zhihu.com/question/341190239/answer/858571046
关于这个问题,简单说三个方面。
1. 我跟不少学者聊过,解释性方向发文章确实比其他方向困难很多。这个方向上,随便做出些结果容易,但是做出代表意义的成果不容易。更何况,即使做出不错的成果,也不意味着就可以顺利发表。目前的审稿人耐心和责任心都在下降,如果不做主流题目,步子走大了,审稿人无法在十几分钟内看明白,估计就麻烦了。
2. 可解释性也分很多子方向,有老问题也有新问题,有严谨规范的研究,也有不严谨的。总体来说有做可视化的,有做语义层面解释性的,也有做数学层面去解释神经网络内在机理的。虽说解释性研究比较新,但是这些方向中有一些已经很老了,已经遇到了一定瓶颈。但是还有很多新兴问题需要定义和解决,需要人们去定义研究规范、评价规则,使得研究更加严谨规范。
3. 所谓“坑”,往往是从功利的角度来看的——是否可以高效地出论文,而不是从科学发展的角度来说的。归根到底这是一个科研观的问题。任何人都有毕业或评职称的压力,但或许跳坑是科研的本分吧。基本常识大家都明白,知道有些问题目前很难做,但是从学科发展来看,只有这些坑才是真正值得去做的问题。不少学者已经对深度学习的前途表示出深深的忧虑和茫然,但是这些苦恼代表了未来的机会,这也是很多人在工业界高薪诱惑下,依然留在学术界的原因——虽然大部分人最终没有爬坑的能力。
作者:李丰文
https://www.zhihu.com/question/341190239/answer/1639666720
除非你数学特别牛,数学牛的定义是基本就是数学系硕士水平的课没有问题,那么可以考虑入,但是一定要有back up.这个方向特别难,我就在做。
只是线性网络要彻底弄明白现在的数学就有一点不够的感觉,我做线性网络已经用到了代数几何,但是还差一点点的东西感觉线性网络才差不多,何况非线性网络里即使简化了后要保留的一些的结构比如normalization什么的,要真正的理解也很困难。
当然你要灌水,比如很多做解释的用什么传统机器学习那套或者转化为别的可解释模型概率那一套灌灌水(即使发顶会顶刊在我看来也是灌水,一点问题都没有解决)另外说。如果你导师理论功底没有,你不天资聪颖不介意入,当爱好挺好的。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓