一.算法层面
AI离不开数据,同时也离不开算法,在算法层面大致有:机器学习ML(machine learning),深度学习DL(Deep learning),强化学习RL(Reinforcement learning)
二.子领域层面
AI个人理解的主要的方向有 计算机视觉、自然语言、语音、知识图谱这几大方向
搭建一个完整的AI,需要它的 视觉模块,听觉模块,语言模块,记忆推理认知模块,当然还有躯体模块等(机器手臂、传感器),所以AI也相应的分为了以下几个子领域,它们之间也有重叠和相互需要的部分
计算机视觉 CV:computer vision,可以简单的理解智能体的视觉模块,是研究机器如何看的科学,也是工业界AI应用场景最多的领域(不过好像加入的人有点多…),主要处理图像的识别、理解,目标跟踪、检测等问题
CV的子方向有:目标检测、目标识别、图像分类、图像分割、图像内容理解、姿态估计、SLAM(定位和地图构建)等等,比如自拍的美颜、p大进入校园刷的人脸识别、手机的指纹解锁、高端一点的自动驾驶(虽然还有很长一段路要走),安防,这些都涉及计算机视觉 CV
自然语言处理 NLP:Natural Language Processing,可以简单的理解智能体的语言模块,涉及语言的理解、认知的科学
主要的范畴和子方向有:中文自动分词、文本分类、文本情感分析、问答QA、对话Dialog、信息检索 Information retrieval、信息摘要 Information extraction、机器翻译等,比如用的apple的Sir、Google翻译、百度的搜索…这些都涉及NLP
相比于CV,NLP典型应用场景较少,范围窄而复杂度更高,不过cv和nlp也要相互联系的地方,个人觉得也是未来研究的热点方向,比如一个人走到一个地方环视一周,然后用语言描述出来,cv再根据描述重新构建场景,这个叫场景重建,再比如从艺术家的画中分析表达的情感态度,这也算二者结合的地方
语音 VC:Voice Recognition,可以简单的理解智能体的听觉模块,也算一个模式识别的问题,解决的是从多个声音(有许多噪声)中筛选出你想要的声音,比如微信聊天的语音识别,比如英语流利说的发音打分都要用到语音VC识别的相关算法
知识图谱 KG:Knowledge Graph,可以算作一个独立的方向,个人感觉和记忆理解这块比较接近,可以简单的理解智能体的记忆推理认知模块,也就是知识库的图数据呈现,是一种语义网络,我们这里把它单独划为一个子方向,把实体用关系串联起来,在知识库文本中挖掘语义,知识推理,使得AI更具有可解释性,也是非常重要的方向
总结一下,科学家想要搭建智能体,要分别搭建它的视觉、语言、听觉、记忆推理认知等模块,而这些模型也分别对应自己的领域和方向
四.工业界需求大方向
目前互联网大厂落地场景可以分为以下四类(问答还在快速发展,其他三个业务比较成熟稳定):
搜索、问答、推荐系统、计算广告
搜索:说大一点,众所周知的百度搜索引擎,Google搜索,说小一点,基本上每个成熟的网页、APP都需要自己的搜索功能
推荐:靠个性化推荐打出一片天地的字节跳动,根据用户偏好推荐相应的内容,阿里的淘宝推荐界面、美团根据用户口味喜好推荐外卖等等,知乎推荐你喜欢看的文章等等,应用场景也是相当广阔
计算广告:据说Facebook 90%以上的收入都是来自于广告,广告和推荐有交集,根据广告金主霸霸的需求,不断调整广告出现位置,提高广告点击率等等
智能问答:这里的问答是任务式问答,类似智能客服,不管是淘宝智能商家还是超市选购,还是医院挂号的问答机器,还是银行智能客服,问答这块的未来需求会很大!!所以提前划分到经典落地三大类:广告 搜索 还有推荐。