研0如何选择人工智能领域的各个方向-CSDN博客

本文链接：https://blog.csdn.net/z13956393506/article/details/130900200

文章介绍了AI的主要算法层面，包括机器学习、深度学习和强化学习，以及计算机视觉、自然语言处理、语音识别和知识图谱等子领域。同时，概述了工业界AI的应用，如搜索、推荐、计算广告和智能问答，强调了各领域的交叉与未来发展潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.算法层面

AI离不开数据，同时也离不开算法，在算法层面大致有：机器学习ML（machine learning），深度学习DL（Deep learning），强化学习RL（Reinforcement learning）
在这里插入图片描述

二.子领域层面

AI个人理解的主要的方向有计算机视觉、自然语言、语音、知识图谱这几大方向

搭建一个完整的AI，需要它的视觉模块，听觉模块，语言模块，记忆推理认知模块，当然还有躯体模块等（机器手臂、传感器），所以AI也相应的分为了以下几个子领域，它们之间也有重叠和相互需要的部分

计算机视觉 CV：computer vision，可以简单的理解智能体的视觉模块，是研究机器如何看的科学，也是工业界AI应用场景最多的领域（不过好像加入的人有点多…），主要处理图像的识别、理解，目标跟踪、检测等问题

CV的子方向有：目标检测、目标识别、图像分类、图像分割、图像内容理解、姿态估计、SLAM（定位和地图构建）等等，比如自拍的美颜、p大进入校园刷的人脸识别、手机的指纹解锁、高端一点的自动驾驶（虽然还有很长一段路要走），安防，这些都涉及计算机视觉 CV

自然语言处理 NLP：Natural Language Processing，可以简单的理解智能体的语言模块，涉及语言的理解、认知的科学

主要的范畴和子方向有：中文自动分词、文本分类、文本情感分析、问答QA、对话Dialog、信息检索 Information retrieval、信息摘要 Information extraction、机器翻译等，比如用的apple的Sir、Google翻译、百度的搜索…这些都涉及NLP

相比于CV，NLP典型应用场景较少，范围窄而复杂度更高，不过cv和nlp也要相互联系的地方，个人觉得也是未来研究的热点方向，比如一个人走到一个地方环视一周，然后用语言描述出来，cv再根据描述重新构建场景，这个叫场景重建，再比如从艺术家的画中分析表达的情感态度，这也算二者结合的地方

语音 VC：Voice Recognition，可以简单的理解智能体的听觉模块，也算一个模式识别的问题，解决的是从多个声音（有许多噪声）中筛选出你想要的声音，比如微信聊天的语音识别，比如英语流利说的发音打分都要用到语音VC识别的相关算法

知识图谱 KG：Knowledge Graph，可以算作一个独立的方向，个人感觉和记忆理解这块比较接近，可以简单的理解智能体的记忆推理认知模块，也就是知识库的图数据呈现，是一种语义网络，我们这里把它单独划为一个子方向，把实体用关系串联起来，在知识库文本中挖掘语义，知识推理，使得AI更具有可解释性，也是非常重要的方向

总结一下，科学家想要搭建智能体，要分别搭建它的视觉、语言、听觉、记忆推理认知等模块，而这些模型也分别对应自己的领域和方向

四.工业界需求大方向
目前互联网大厂落地场景可以分为以下四类（问答还在快速发展，其他三个业务比较成熟稳定）：

搜索、问答、推荐系统、计算广告
在这里插入图片描述
搜索：说大一点，众所周知的百度搜索引擎，Google搜索，说小一点，基本上每个成熟的网页、APP都需要自己的搜索功能