超越BERT的模型有哪些？

最新推荐文章于 2025-02-24 22:32:52 发布

视学算法

最新推荐文章于 2025-02-24 22:32:52 发布

阅读量983

点赞数 1

文章标签：神经网络算法人工智能大数据编程语言

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括依图推出的预训练语言理解新模型 ConvBERT，以及关于机器学习模型安全性与隐私的探讨。

目录：

Graph Neural Networks in Recommender Systems: A Survey
Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher
ConvBERT: Improving BERT with Span-based Dynamic Convolution
A Survey of Label-noise Representation Learning: Past, Present and Future
Structured Models for Vision-and-Language Reasoning
Security and Privacy of Machine Learning Models: A Survery
Deep Learning for Detecting Cerebral Aneurysms with CT Angiography
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Graph Neural Networks in Recommender Systems: A Survey

作者：Shiwen Wu、Wentao Zhang、Fei Sun、Bin Cui
论文链接：https://arxiv.org/abs/2011.02260

摘要：本文中来自北京大学和阿里巴巴的研究者全面综述了基于图神经网络的推荐系统的最新研究成果，具体而言，他们分类了基于图神经网络的推荐模型，并阐释了该领域发展的最新观点。

本文使用的主要术语及对应符号。

基于推荐模型的图神经网络的分类。

基于推荐系统的图神经网络汇总。

推荐：读者可以对基于推荐系统的图神经网络有更深入的理解。

论文 2：Knowledge Distillation in Wide Neural Networks: Risk Bound, Data Efficiency and Imperfect Teacher

作者：Guangda Ji、Zhanxing Zhu
论文链接：https://www.zhuanzhi.ai/paper/8fb343feb238db246bcdb59a367b6cbd

摘要：本文中来自清华大学的研究者从理论上分析了广义神经网络的知识蒸馏问题。他们首先提出了线性化网络模型的迁移风险界限，然后提出了一个度量任务训练难度的指标，称为数据效率低效率。根据这个指标，研究者表明，对于一个完美的教师网络，软标签占比高是有益的。最后，对于不完美的教师网络，研究者发现，硬标签可以修正教师网络的错误预测，这也对硬软标签混合使用的实践做出了解释。

左：节点数量的难度控制；右：翻转概率的难度控制。

左：教师和学生网络输出的 1-D 示例；中右：不同教师网络中停止 epoch 和软比例（soft ratio）的数据低效率曲线。

左和中：合成数据集和 CIFAR10/ResNet 数据集上的不完美蒸馏。

推荐：这篇轮论文从理论上分析了广义神经网络的知识蒸馏问题。

论文 3：ConvBERT: Improving BERT with Span-based Dynamic Convolution

作者：Zihang Jiang、Weihao Yu、Daquan Zhou 等
论文链接：https://arxiv.org/pdf/2008.02496.pdf

摘要：本土独角兽依图科技最近在人工智能界顶会 NeurIPS 上提出了一个小而美的方案——ConvBERT，通过全新的注意力模块，仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。相比费钱的 GPT-3，这项成果可让更多学者用更少时间去探索语言模型的训练，也降低了模型在预测时的计算成本。

依图的这篇论文提出了基于区间的新型动态卷积，在自然语言理解中证明有效，在计算机视觉领域也可使用。这是依图继 ECCV 2020 之后，连续开放的第二项主干网络基础性改进工作。

混合注意力模块。

ConvBERT 与 BERT 的 attention map 对比。

ConvBERT 与当前最优模型的比较结果。

推荐：本文已被 NeurIPS 2020 会议接收。

论文 4：A Survey of Label-noise Representation Learning: Past, Present and Future

作者：Bo Han、Quanming Yao、Tongliang Liu 等
论文链接：https://arxiv.org/pdf/2011.04406.pdf

摘要：本文中几位研究者详尽解读了标签噪声表示学习（label-noise representation learning, LNRL）的发展历史、现状和未来。

LNRL 方法汇总。

适应层的一个通用用例。

自训练（即 M-Net）vs 协同训练（即 Co-teaching 和 Co-teaching+）。

推荐：本文一作 Bo Han 现为香港浸会大学计算机科学系助理教授。

论文 5：Structured Models for Vision-and-Language Reasoning

作者：Ronghang Hu
论文链接：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf

摘要：视觉语言任务（如基于图像回答问题或按照自然语言指令在视觉环境中导航）需要对图像和文本两种模态的数据进行联合建模和推理。视觉和语言联合推理方面已经取得了很大进步，但通常使用的是在更大的数据集和更多计算资源帮助下训练的神经方法。视觉语言任务的解决是否只是堆参数堆数据那么简单？如果不是，如何构建更好的推理模型，既能提高数据效率又具备不错的泛化性能呢？UC 伯克利胡戎航的博士论文就是关于这个主题。

CMN 网络。

推荐：UC 伯克利大学计算机科学博士胡戎航（Ronghang Hu）的博士论文新鲜出炉，内容涉及视觉与语言推理的结构化模型。

论文 6：Security and Privacy of Machine Learning Models: A Survery

作者：纪守领、杜天宇、李进锋、沈超、李博
论文链接：http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1

摘要：在大数据时代下，深度学习、强化学习以及分布式学习等理论和技术取得的突破性进展，为机器学习提供了数据和算法层面的强有力支撑，同时促进了机器学习的规模化和产业化发展。然而，尽管机器学习模型在现实应用中有着出色的表现，但其本身仍然面临着诸多的安全威胁。机器学习在数据层、模型层以及应用层面临的安全和隐私威胁呈现出多样性、隐蔽性和动态演化的特点。机器学习的安全和隐私问题吸引了学术界和工业界的广泛关注，一大批学者分别从攻击和防御的角度对模型的安全和隐私问题进行了深入的研究，并且提出了一系列的攻防方法。

在本综述中，我们回顾了机器学习的安全和隐私问题，并对现有的研究工作进行了系统的总结和科学的归纳，同时明确了当前研究的优势和不足。最后，我们探讨了机器学习模型安全与隐私保护研究当前所面临的挑战以及未来潜在的研究方向，旨在为后续学者进一步推动机器学习模型安全与隐私保护研究的发展和应用提供指导。

对抗样例攻击示例。

经典的对抗样例攻击方法（一部分）。

文本分类的对抗样例。

推荐：本文被《软件学报》接收。

论文 7：Deep Learning for Detecting Cerebral Aneurysms with CT Angiography

作者：Jiehua Yang、Mingfei Xie、Canpei Hu 等
论文链接：https://pubs.rsna.org/doi/10.1148/radiol.2020192154

摘要：日前，放射学领域的国际顶级期刊《Radiology》（《放射学》）发表了一项来自中国的「人工智能 + 医学影像」最新研究成果：运用 AI 帮助医生检测脑动脉瘤，灵敏度达到 97.5%；AI 协助放射科医生阅片，帮助医生临床诊断灵敏度提升约 10 个百分点，漏诊率降低 5 个百分点；同时有效缩短医生诊断时间。

这项研究由华为云 EI 创新孵化 Lab 联合华中科技大学电信学院、华中科技大学同济医学院附属协和医院放射科完成，运用华为云一站式 AI 开发平台 ModelArts 开发了一套基于 CTA 影像的全自动化、高度敏感的脑动脉瘤检测算法，帮助医生更快速高效地诊断脑动脉瘤。

脑动脉瘤检测算法的整体架构。

数据获取、筛选和分割流程图。

算法在验证集上的 FROC 曲线。

推荐：AI 辅助检测脑动脉瘤。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 6 篇 NLP 精选论文是：

1. Learning to Respond with Your Favorite Stickers: A Framework of Unifying Multi-Modality and User Preference in Multi-Turn Dialog. (from Li Liu)

2. Understanding Pure Character-Based Neural Machine Translation: The Case of Translating Finnish into English. (from Joakim Nivre)

3. Semi-supervised URL Segmentation with Recurrent Neural NetworksPre-trained on Knowledge Graph Entities. (from Richard Sproat)

4. Practical and Ethical Considerations in the Effective use of Emotion and Sentiment Lexicons. (from Saif M. Mohammad)

5. EXAMS: A Multi-Subject High School Examinations Dataset for Cross-Lingual and Multilingual Question Answering. (from Preslav Nakov)

6. Answer Span Correction in Machine Reading Comprehension. (from Vittorio Castelli)

本周 6 篇 CV 精选论文是：

1. Towards Efficient Scene Understanding via Squeeze Reasoning. (from Zhouchen Lin)

2. GHFP: Gradually Hard Filter Pruning. (from Zhulin An)

3. Confusable Learning for Large-class Few-Shot Classification. (from Jing Jiang)

4. ULSD: Unified Line Segment Detection across Pinhole, Fisheye, and Spherical Cameras. (from Lei Yu)

5. Learning a Geometric Representation for Data-Efficient Depth Estimation via Gradient Field and Contrastive Loss. (from H. Jin Kim)

6. Learning to Orient Surfaces by Self-supervised Spherical CNNs. (from Luigi Di Stefano)

本周 8 篇 ML 精选论文是：

1. Neural Stochastic Contraction Metrics for Robust Control and Estimation. (from Jean-Jacques E. Slotine)

2. Learning Online Data Association. (from Joshua Tenenbaum, Tomas Lozano-Perez, Leslie Kaelbling)

3. Noise2Sim -- Similarity-based Self-Learning for Image Denoising. (from Ge Wang)

4. Improving Sales Forecasting Accuracy: A Tensor Factorization Approach with Demand Awareness. (from Gediminas Adomavicius)

5. Convergent Algorithms for (Relaxed) Minimax Fairness. (from Michael Kearns)

6. Underspecification Presents Challenges for Credibility in Modern Machine Learning. (from Matthew D. Hoffman, Andrea Montanari)

7. Kernel Dependence Network. (from Arthur Gretton)

8. ASFGNN: Automated Separated-Federated Graph Neural Network. (from Benyu Zhang)