博客新址: http://blog.xuezhisd.top
邮箱:xuezhisd@126.com
MXNet的模型园地
MXNet 突出了学术论文中报告的最先进模型的快速实现。我们的模型园地(Modle Zoo)包含了完整的模型,Python脚本,预训练的权重和如何进行微调的说明文档。
如何贡献一个预训练的模型 (应包含什么)
提交一个包含下列内容的 Pull 请求:
- Gist 日志
- .json 格式的模型定义文件
- 模型参数文件
- Readme 文件 (细节见下面)
Readme 文件应该包含:
- 模型的位置和访问命令 (wget)。
- 确认你训练的模型满足原始论文中发表的精度。
- 关于如何使用该模型的逐步说明。
- 引用模型参考的任何其它文档或 arxiv 论文。
卷积神经网络
卷积神经网络对于很多图像和视频处理问题来说,是最先进的架构。一些可用的数据库有:
- ImageNet: 100万张图像构成的语料库,分成1000类。
- CIFAR10: 来自10个类别的60,000 张自然图像 (尺寸:32 x 32)。
- PASCAL_VOC: ImageNet的一个带目标边界框的子集。
- UCF101: 来自101个行为类别的13,320 个视频。
- Mini-Places2: Subset of the Places2数据集的子集。包含来自100个场景的 100,000 张图像
- ImageNet 11k
- Places2:Places365-Standard 包含来自365个场景类别的160万张训练图像,它被用来训练卷积神经网络:Places365。验证集中,每一类有50张图像;测试集中,每一类有900张图像。和Places365-Standard的训练集相比, Places365-Challenge的训练集包括620万额外张图像, Places365 challenge 2016 总共大概有800万张训练图像。验证集和测试集与 Places365-Standard 相同。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
CaffeNet | ImageNet | Krizhevsky, 2012 | @… | |
Network in Network (NiN) | CIFAR-10 | Lin et al…, 2014 | ||
SqueezeNet | ImageNet | Iandola et al…, 2016 | ||
VGG16 | ImageNet | Simonyan et al…, 2015 | ||
VGG19 | ImageNet | Simonyan et al…, 2015 | ||
Inception v3 w/BatchNorm | ImageNet | Szegedy et al…, 2015 | ||
ResidualNet152 | ImageNet | He et al…, 2015 | ||
Fast-RCNN | PASCAL VOC | Girshick, 2015 | ||
Faster-RCNN | PASCAL VOC | Ren et al…,2016 | ||
Single Shot Detection (SSD) | PASCAL VOC | Liu et al…, 2016 |
递归神经网络 (包括LSTMs)
MXNet 支持循环神经网络(recurrent neural networks, RNNs),也支持长短时记忆网络( Long short-term memory, LSTM)和 GRU网络(Gated Recurrent Units)。一些可用的数据集有:
- Penn Treebank (PTB): 文本语料库,大约有100万个单词。词汇量限制在10,000个单词。任务是预测下一个【downstream】单词/字符。
- Shakespeare: 来自莎士比亚作品的复杂文本。
- IMDB reviews: 25,000个视频评论,标签为好/坏。
- Facebook bAbI: 20个问答任务的数据集,每一个有1,000个训练样本。
- Flickr8k, COCO: 带标题/句子的图像。Flickr8k包括 8,092个图像,大约40,000个标注(使用AmazonTurkers标注)。 COCO包含328,000个图像,每一个有5个句子。COCO也包含使用分割算法标记的物体信息。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
LSTM - Image Captioning | Flickr8k, MS COCO | [Vinyals et al…, 2015](https://arxiv.org/pdf/ 1411.4555v2.pdf) | @… | |
LSTM - Q&A System | bAbl | Weston et al…, 2015 | ||
LSTM - Sentiment Analysis | IMDB | Li et al…, 2015 |
生成对抗网络(Generative Adversarial Networks)
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
DCGANs | ImageNet | Radford et al…,2016 | @… | |
Text to Image Synthesis | MS COCO | Reed et al…, 2016 | ||
Deep Jazz | Deepjazz.io |
其它网络模型
MXNet 支持多种模型,不限于经典的CNN和LSTM。包括深度增强学习,线性模型等。下面是一些可用的的数据集和资源:
- Google News: 一个包括300万单词的的文本语料库(为word2vec构建)。
- MovieLens 20M Dataset: 来自2.7万个电影和13.8万个用户的 2000万个评分和46.5万个标签。 Includes tag genome data with 12 million relevance scores across 1,100 tags.
- Atari Video Game Emulator: Stella是一个多平台的 Atari 2600 VCS 仿真器 (GPL)。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
Word2Vec | Google News | Mikolov et al…, 2013 | @… | |
Matrix Factorization | MovieLens 20M | Huang et al…, 2013 | ||
Deep Q-Network | Atari video games | Minh et al…, 2015 | ||
Asynchronous advantage actor-critic (A3C) | Atari video games | Minh et al…, 2016 |