来源:机器之心
700 座的大教室,相比去年增加一倍容量,仍然座无虚席:
这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。
今年是四位教授,每人负责一部分课程:
课程信息:https://advances-in-vision.github.io/index.html
有网友评论说,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。
对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。
MIT 电气工程与计算机科学系副教授何恺明(Kaiming He)在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。
据参与现场的同学表示,大家在上课与下课时分别给他献上了很长一段掌声。
第一堂课讲了什么呢?
作为麻省理工学院(MIT)电气工程与计算机科学系(EECS)副教授,何恺明第一节课讲授了卷积神经网络的基本知识。
整堂课分为 4 个部分,包括卷积基本概念、卷积神经网络概念、经典卷积神经网络分析(LeNet、AlexNet、VGG)、可视化。
完整课件链接:https://drive.google.com/file/d/1TIhzYkyMJTUMKq3SCzzzzJ2TcUnDIuaM/view
这堂课之所以如此火爆,一个重要的原因是何恺明是一位卓越的科研学者,是我们耳熟能详的 AI 科学家之一,在计算机视觉领域没有人不知道他的大名。
从高考状元到顶尖 AI 科学家
2003 年,何恺明以标准分 900 分获得广东省高考总分第一,被清华大学物理系基础科学班录取。在清华物理系基础科学班毕业后,他进入香港中文大学多媒体实验室攻读博士学位,师从汤晓鸥。何恺明曾于 2007 年进入微软亚洲研究院视觉计算组实习,实习导师为孙剑博士。
2011 年博士毕业后,何恺明加入微软亚洲研究院工作任研究员。2016 年,何恺明加入 Facebook 人工智能实验室,任研究科学家。
何恺明的研究曾数次得奖。2009 年,汤晓鸥教授、孙剑博士和当时博士研究生在读的何恺明共同完成的论文《基于暗原色的单一图像去雾技术》拿到了国际计算机视觉顶会 CVPR 的最佳论文奖。
2016 年,何恺明凭借 ResNet 再获 CVPR 最佳论文奖,此外,他还有一篇论文进入了 CVPR2021 最佳论文的候选。何恺明还因为 Mask R-CNN 获得过 ICCV 2017 的最佳论文(Marr Prize),同时也参与了当年最佳学生论文的研究。
根据 Google Scholar 的统计,何恺明一共发表了 74 篇论文,H Index 数据为 68。截至今天,何恺明的研究引用次数超过 53 万次,并且每年以超过 10 万次的速度增长。
这是个什么量级呢?简而言之,他加入 MIT 之后立刻成为该校论文引用量最高的学者,不限学科,没有之一。
那些年,恺明发表过的「神作」
说起恺明大神的作品,最有名的就是 ResNet 了。这篇论文发表于八年前,迄今引用已经超过 20 万。
《Deep Residual Learning for Image Recognition》在 2016 年拿下了计算机视觉顶级会议 CVPR 的最佳论文奖。该论文的四位作者何恺明、张祥雨、任少卿和孙剑如今在人工智能领域里都是响当当的名字,当时他们都是微软亚洲研究院的一员。
同样是大神级别的学者李沐曾经说过,假设你在使用卷积神经网络,有一半的可能性就是在使用 ResNet 或它的变种。
何恺明有关残差网络(ResNet)的论文解决了深度网络的梯度传递问题。这篇论文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究领域被引用次数最多的论文,并建立了现代深度学习模型的基本组成部分(例如在 Transformers、AlphaGo Zero、AlphaFold 中) )。
如今大模型都在使用的 transformer 的编码器和解码器,里面都有源自 ResNet 的残差链接。
2021 年 11 月,何恺明以一作身份发表论文《Masked Autoencoders Are Scalable Vision Learners》,提出了一种泛化性能良好的计算机视觉识别模型,同样是刚刚发表就成为了计算机视觉圈的热门话题。
一个初入 AI 领域的新人,在探索的过程中看到很多重要研究主要作者都是何恺明,经常会不由得感到惊讶。何恺明虽然长期身处业界,但科研态度一直被视为标杆 —— 他每年只产出少量一作文章,但一定会是重量级的,几乎没有例外。
我们也经常赞叹于何恺明工作的风格:即使是具有开创性的论文,其内容经常也是简明易读的,他会使用最直观的方式解释自己「简单」的想法,不使用 trick,也没有不必要的证明。这或许也将成为他在教学领域独特的优势。
参考内容:
https://twitter.com/sarameghanbeery/status/1757101096844288310
推荐阅读
欢迎大家加入DLer-计算机视觉技术交流群!
大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。
进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)
👆 长按识别,邀请您进群!