以下文章摘录自:
《机器学习观止——核心原理与实践》
京东: https://item.jd.com/13166960.html
当当:http://product.dangdang.com/29218274.html
(由于博客系统问题,部分公式、图片和格式有可能存在显示问题,请参阅原书了解详情)
1.1 ImageNet简述
2012年,深度学习领域的大牛Hinton发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》为Computer vision领域带来了革命性的变化——从标题不难看出,这篇论文的工作就是基于Imagenet数据集来完成的。
ImageNet的其中一个主要缔造者是来自Stanford University的教授FeiFei Li——相信大家对这个名字并不陌生。因为随着深度学习的大热,imagenet和李教授也可以说是“名满天下”了。她本人目前既是斯坦福大学人工智能实验室与视觉实验室的负责人,同时还加入了谷歌云担任人工智能和机器学习的首席科学家(注:截至本书上市时,FeiFei Li已经从Google离职)。
ImageNet的成功是多方面促成的——这其中虽然难免掺杂着“时机”的因素,但我们更应该看到的是其背后团队“十年如一日”的付出,以及更为重要的一点:数据集本身的严谨性和规范性。
后面这一点也是接下来我们希望重点阐述的。相信理解ImageNet的构建逻辑,对于大家在项目中自定义一个数据集也可以起到不小的帮助作用。
1.2 ImageNet的构建逻辑
所谓“万事开头难”,ImageNet在建立之初,首先遇到的问题就是如何通过数据来体现世界的多样性。根据ImageNet的描述,研究人员做了不少前期的探索,并最终借鉴了类似于WordNet的作法。
WordNet源于Princeton 大学,是由心理学家(乔治·A·米勒),语言学家和计算机工程师共同设计的一种基于认知语言学的“新型”英语词典。官方网址如下:
https://wordnet.princeton.edu/
官网上对它的简洁定义是“A Lexical Database for English”,其核心逻辑在于:
“WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations.”
图 ‑ Synsets
也就是说,wordnet中意义相近的单词都被组成一个个同义词组(Synset),并提供了简短概要的定义。同时,不同synset之间还通过语义关系组织成网络(名词、动词、形容词和副词各自组网)。事实上在WordNet的第一个版本中(标记为1.x),四种不同词性的网络之间并无连接。其中WordNet的名词网络是第一个发展起来的。我们援引北京大学语言学研究中心对它的描述来加深理解,如下所示:
“
l 在WordNet 1.5版中包含了差不多80000名词 -- 60000词汇化的概念;其中许多都是collocation(搭配型词)
l WordNet跟其他传统词典的差别,主要不是在词义以及覆盖面方面,还是信息的组织方式的创新方面
l 传统的词典包括:拼写、发音、屈折变化形式、词源、派生形式、词性、定义以及不同意义的举例说明、同义词和反义词、特殊用法说明、临时用法等
l WordNet不包括发音、派生形态、词源信息、用法说明、图示举例等。WordNet尽量使词义之间的关系明晰并易于使用
l WordNet中的基础语义关系是synonymy(同义关系)。同义词集合(synset)构成了WordNet的基本建筑单位(building block)。Ravin(1992)已经开发了一些程序用于从同义词词林中抽取同义词集合。但WordNet的这类工作是手工进行的
l WordNet中的同义概念并不是指在任何语境中都具有可替换性。如果以这样的标准来衡量同义关系,语言中的同义词就少得很了<