关于机器学习、表示学习、深度学习、神经网络的简单介绍
-
机器学习:是指从有限的观测数据中学习(或猜测)出具有一般性的规律,并利用这些规律对未知数据进行预测,可以看作一个浅层学习,不涉及特征学习,其特征主要依靠人工经验或特征转换方法来抽取。在一般任务中机器学习模型一般包含以下步骤:
其中:
1)数据预处理:去噪、去停用词等
2)特征提取:提取原始数据中有效特征
3)特征转换:对特征进行一定加工处理,如降维、升维等
4)预测:是机器学习的核心部分,学习一个函数并进行预测 -
表示学习:自动地学习出数据的有效特征,并提高机器学习模型的性能。一个“好的表示”应该具有很强的表示能力(即同样大小的向量可以表示更多信息)、能使后续学习任务变得简单(即需要包含更高层的语义信息)、具有一般性(即学习到的表示可以较容易迁移到其他任务中)。在机器学习中,常使用两种方式来表示特征:
1)局部表示:离散表示、符号表示、one-hot向量
2)分布表示:压缩、低维、稠密向量
从表中可以看出,局部表示采用的one-hot向量表示的维度更高,若要添加一个新的颜色,则需要增加一个维度,而且不同颜色之间的相似度都为0;而分布式表示的表示能力要强很多,采用了更低维度的向量表示数据,很容易表示新的颜色名,而且不同颜色的相似度也很容易计算。 -
深度学习:是将原始数据特征通过多步的特征转换得到一种特征表示,并进一步输入到预测函数得到最终结果。和“浅层学习”不同的是,深度学习需要解决的关键问题是贡献度分配问题,即一个系统中的不同组件或参数对最终结果系统输出结果的贡献或影响。
-
神经网络:在机器学习领域,神经网络是指由很多人工神经元构成的网络结构,这些人工神经元之间的连接强度是可学习的参数,需要考虑三方面的问题:
1)神经元的激活规则:主要是指神经元输入到输出之间的映射关系,一般为非线性函数
2)网络的拓扑结构:不同神经元的连接关系
3)学习算法:通过训练数据来学习神经网络的参数
图1:神经网络的不同连接
图2:一个人工神经元
目前,深度学习采用的模型主要是神经网络,其主要原因是神经网络模型可以使用误差反向传播算法,从而可以较好地解决贡献度分配问题。例如在如下计算中,y表示输出,w表示参数,当对w进行扰动时,观察y的变化,y变化越大表示w的贡献度也就越大。
神经网络天然不是深度学习,但深度学习天然是神经网络
参考书籍:神经网络与深度学习
今天的笔记就记录到这里啦!有问题可以戳我哟!!