深度学习基础概念

深度学习简介

         深度学习是一种基于神经网络的学习方法。和传统的机器学习方法相比,深度学习模型一般需要更丰富的数据、更强大的计算资源,同时也能达到更高的准确率。目前,深度学习方法被广泛应用于计算机视觉、自然语言处理、强化学习等领域。本章将依次进行介绍。

表征学习:学习从高维空间到低维空间的映射(降维) 维度越高,需要数据量就越大。Mapping from features:学习器。特征提取(人工选择特征)与学习器是分开的。 深度学习:特征提取与学习器是一起的,卷积。(end to end)

        深度学习关键:这些层次的特征不是由人工设计的,而是使用一种通用的学习步骤从数据中学习获取的(学习得到的)。这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。

        深度学习在搜索技术、数据挖掘、机器翻译、多媒体学习、语音识别、推荐和个性化技术以及其他相关领域都取得了很多成果。 深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步,最终目标是让机器能够像人一样具有分析学习能力。

计算机视觉的基本任务

定义

        计算机视觉是一门研究如何使机器“看”的科学,涉及计算机如何从数字图像或视频中获得高级理解。 形象地说,即通过给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。 以代替人眼对目标进行识别、跟踪和测量等操作,并对图像进行进一步的处理,使图像更适合人眼观察或传入仪器。 计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。 作为一门综合性的学科,计算机视觉已经吸引了来自各个学科的研究者参加到对它的研究之中。 其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等学科。

计算机视觉的基本任务

       计算机视觉的基本任务包含图像处理、模式识别或图像识别、景物分析、图像理解等。除了图像处理和模式识别之外,它还包括空间形状的描述,几何建模以及认识过程。实现图像理解是计算机视觉的终极目标。

计算机视觉主要任务

        图像分类是深度学习中最常见的应用之一。它的目标是将图像分到预定义的类别中。深度学习通过多层神经网络来学习图像的抽象特征。这些特征可以从原始像素值或者低级特征(如边缘、纹理等)中提取出来,然后通过多个隐藏层进行非线性组合和转换,最终得到高级语义特征。

        卷积神经网络(Convolutional Neural Network, CNN):主要用于图像分类和识别任务,包括LeNet、AlexNet、VGG、GoogLeNet、ResNet

计算机视觉主要应用

图像分类

实际上,图像分类是分析一个输入图像并返回一个将图像分类的标签。标签总是来自预定义的可能类别集。 利用深度学习算法可以实现对猫的图像进行分类,如下图所示。

目标检测

        目标检测是机器视觉领域最主要的应用之一,例如,汽车违规行驶的检测会为了保障行车、行人的安全在路口安装交通检测系统,检测汽车的行驶速度是否超过限制、是否存在违规变道行为、是否存在闯红灯行为、是否遮挡车牌、是否系安全带等。 而人工检测存在着较多的弊端,如准确率低,长时间工作准确性更是无法保障,而且检测速度慢,容易出现错判和漏判。 因此,机器视觉在目标检测的应用方面也就显得非常重要。

图像处理技术

图像理解技术

图像理解技术是对图像内容信息的理解。

       给定一幅图像,图像理解程序不仅描述图像本身,而且描述和解释图像所代表的景物,以便对图像代表的内容做出决定。

计算机视觉的传统算法

       在深度学习算法出现之前,对于计算机视觉算法来说,大致可以分为以下5个步骤:

缺点

1.缺乏对特征的重视

2.图像特征提取需要人力

3.依赖特征算子

自然语言处理

自然语言?

        ChatGPT是一种基于OpenAI GPT(Generative Pre-trained Transformer)模型的对话生成模型。 它是OpenAI公司推出的一种自然语言处理模型,旨在通过生成自然流畅的对话响应来实现人机交互。 ChatGPT是通过在大量的对话数据上进行预训练,学习语言模式和对话流程,然后根据用户输入产生相应的回复。 它可以用于诸如客户服务、虚拟助手、编程帮助等任务,为用户提供实用的对话交互体验。 同时,OpenAI还通过与用户的交互来不断改进和优化ChatGPT模型,以提供更准确和有用的回复。

        深度学习自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科。 自然语言处理包含机器理解、解释和生成人类语言的方法,因此,也将它描述为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。 传统的NLP方法采用基于语言学的方法,它基于语言的基本语义和句法元素(如词性)构建。 基于深度学习的自然语言处理避开了对中间元素的需求,并且可以针对通用任务学习该任务本身的层次表示。 1966年自动语言处理咨询委员会的报告强调了机器翻译从流程到实施成本面临的巨大困难,导致投资方减少了在资金方面的投资,使得NLP的研究几乎停滞。

自然语言处理的基本问题

        自然语言处理主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,其主要任务包括: 语言建模:计算一个句子在一个语言中出现的概率。 中文分词:将中文句子恰当地切分为单个的词。 句法分析:通过明确句子内两个或多个词的关系来了解整个句子的结构。最终句法分析的结果是一棵句法树。

深度学习与神经网络发展

卷积神经网络(CNN):

        卷积神经网络是一种对人脑比较精准的模拟,它模拟了人脑识别图片时感知图片中的局部特征,之后将局部特征综合起来再得到整张图的全局信息的过程。其卷积层通常是堆叠的,低层的卷积层可以提取到图片的局部特征,高层的卷积能够从低层的卷积层中学到更复杂的特征,从而实现到图片的分类和识别。

现代深度学习的过程

       用学习好的卷积和对图像进行扫描,然后每一个卷积和会生成一个扫描的响应图,我们叫response map,或者叫feature map。如果有多个卷积和,就有多个feature map。也就说从一个最开始的输入图像(RGB三个通道)可以得到256个通道的feature map,因为有256个卷积和,每个卷积和代表一种统计抽象的方式。

        池化操作。池化操作在统计上的概念更明确,就是一个对一个小区域内求平均值或者求最大值的统计操作。带来的结果是,如果之前输入有两个通道的,或者256通道的卷积的响应feature map,每一个feature map都经过一个求最大的一个池化层,会得到一个比原来feature map更小的256的feature map。

传统方法与神经网络方法的比较

传统方法适用于特征工程比较成熟、数据较少或易解释性要求高的场景; 神经网络方法适用于数据较大、特征难以手动设计或对模型性能要求较高的场景。 在实际应用中,可以根据问题的特点和数据的性质选择合适的方法。

强化学习

监督学习与非监督学习

监督学习是通过带有标签或对应结果的样本训练得到一个最优模型,再利用这个模型将所有输入映射为相应输出,以实现分类

非监督学习是在样本的标签未知的情况下,根据样本之间的相似性对样本集进行聚类,使类内差距最小化,学习出分类器

强化学习的四个因素

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值