进入AI领域做产品 —— 我的自学之路

AI 专栏收录该内容
17 篇文章 1 订阅

一.前言

        不知不觉,已经为了准备进入AI领域,积累输入了100天的时间。

        4月参与了GPST的产品经理培训,将时间全部投入在了产品方法、认知的重新梳理上。从5月开始,全情投入到AI知识的学习中,从Python入门到机器学习原理,从计算机视觉通识再到行业理解…

        随着知识网络的一步步扩充,在一次保存思维导图的过程中电脑发生了长时间的卡顿,之后,把内容复制到Word统计了字数——6万字。这个数字在让我有些许惊讶和小愉悦之后,我开始产生了压力,因为它再次催促我,你得着手输出了。

        做产品经理这份工作将涉及大量选择,本质上,是需要“输入→内视→输出”的环节更多,所以为了更好的去进行“输出”,学习“输入”(AI基础认知、产品认知、技术通识)以及“内视”(认知框架)的重要性就不言而喻了。

        所以,这份内容是关于一个要进入AI领域的产品经理,所需要积累的“输入”的归纳,以及搭建“内视”框架的过程。(第二份输出也已经完成——《出行服务 + AI —— 一次模拟的创业》

        最后,很感谢众多无私分享内容的朋友,本文中绝大部分的知识点、观点以及对现象的描述,均来自于对分享内容的理解转化,当然其中也包含了很多个人的思考、见解,总之无限的感恩。

二.初心

        每个人的人生走向,概括来说分为“被动”与“主动”。

        被动,大多数情况下没有想清楚,或者回避去想,自己为何处在这条路上,并且在惯性下难以停下,并跑了好远好远…

        主动,大多数情况下要求自己想清楚了,再找去找到那条路,全力以赴的奔跑…

        我认为自己的前24年人生,是被动的。

        那段时间,应该,和大多数人一样吧,在被要求或通知要做某件事情的时间点,去做某件事。比如大三时被学校通知去参加校招,受环境影响,下意识就认为当下要找工作,然后稀里糊涂去面试,再然后就去了上海做游戏产品,甚至并不清楚为什么要做产品。

        回想,有机会做出这个决定只是因为从健身房锻炼出来之后,经过教学楼看到很多人在外面拥挤,就过去凑了热闹,看到一家还算大的游戏厂商在校招,感觉自己对游戏还挺感兴趣,遂参加笔试,最后在自己拿到的几个Offer中感觉这个似乎更有意思,遂去了上海…感觉…

        我开始被惯性推动,全力以赴地工作了一年半,但接着,因为团队的巨大变动以及其中复杂的环境因素,让我的惯性神经和三观受到了强烈的冲击,我开始在痛苦中迷失。

        从那时候起,我开始了大量的阅读,企图去从中寻求答案,当高密度的阅读以及在痛苦中的思考持续了半年之后,很多事情开始变得清晰,认知也仿佛被激活了,最终,确定了离开的念头。

        接下来的一年,我选择继续全力以赴把事情做好,坚持为这几年的努力画上一个句号

        在这个过程中,也开始意识到自己的“被动”和“下意识回避”造就的“惯性人生”,我越来越无法忍受这种“惯性”和“模糊感”,越来越想尽可能获得“主动权”去活的通透,越来越想弄明白一个问题——人生的意义是什么?

人生的意义

我想要什么

        我想要的,最本质的是什么?在不停地发问下,得出的结果是——满足感和意义感。

        从小到大,每当我“遇到”后感觉喜欢的事情,我会比一般人更渴求在其中获得成功,从中得到满足、得到激励让我欲罢不能,这或许就是我当下认知所得出的,对于我个人而言,所谓幸福的最重要的因素吧。

如何能得到

        在思考这个问题的时候,一个观点让我认同且接受,大意是:

找到你愿意不厌其烦地投入时间的事情,在你追求卓越的过程中它会回馈给你巨大的满足,同时你也找到了所谓的热爱

        这让我认定了,获得满足感和意义感,必须要找到那件能够让我热爱的事情。而在追寻的过程,即是我当下所认为的,我人生的意义。

        这也和梯度下降函数类似,是选择像BGM一样按照既定模式,还是选择像SGM自由选择、横冲直撞,本质都是在不断选择方向、自我迭代,希望趋向那个最优解吧,而那个趋向最优解的过程,即人生的意义。

找到热爱的事情

选择方向

        AI这个念头在思考这件事情之前就已经存在于我的脑海中,在我处在迷茫的那段时间,这个概念不断闪现,曾是臆想中自己未来的一种可能性。所以,当我要做出选择时,立马想到的方向即是AI,进而开始对AI深入了解。

        通过了解,我确认了三点,基于这三点我决定向AI这个方向进发:

  • AI很有价值,并且有巨大的发展空间,能促进人类的进步:
  • 做AI产品,更有机会去提供给他人更大的价值,从而能让自己能得到更多回馈;
  • 参与AI的团队,更有机会遇到优秀的人,激励自身的进步。
选择领域

        我了解到,AI在中国目前大致有3个领域发展较为迅速——基于机器学习的分析预测、计算机视觉、自然语言处理等。

        综合考虑下,选择了计算机视觉,因为:

  • 相较其他,对视觉相关兴趣更强;
  • 人获取信息的70%以上来自于视觉,正因为视觉人才能感知丰富多彩的世界。同时,这个世界本质是基于视觉进行设计的,而计算机视觉遵循了这个规则,所以我认为让计算机先去看懂世界意义更大;
  • 计算机视觉落地的场景相对广泛,有更多的机会。
选择细分领域

        计算机视觉中细分的方向非常多,精力有限只能取其一作为切入点,在人脸识别、OCR、图像搜索等技术中。

        最终选择人脸识别,因为:

  • 人脸识别技术目前很多企业涉足,有更多的机会;
  • 人脸识别技术比较成熟,已经进入了商业落地阶段,更注重产品创造的用户价值以及商业价值,对于互联网产品经理来说是一个比较好的切入点。

小结

        确认初心十分重要,因为这条道路势必充满了艰难险阻,如果心不坚神不定,在过程中受到了否定、批判、打击、寒冬等外界因素影响,用幻想建立的空中楼阁轻易就会倒塌,在这人生这条漫长的道路上也很容易会半途而废并再度迷失,可是注意力以及时间是宝贵的,要把它们放在你认为最有意义的事情上。

        而人生的意义是自己赋予的,尽量去找到自己存在的意义并为此努力进步吧!AI会归纳演绎不断进化,那么作为人呢?人的认知在前行的过程中不断进化,从而带来不一样的选择,最后命运的阴差阳错或许是最迷人的事情吧!

        想清楚的过程或许十分煎熬,但一旦想清楚了之后,我告诉自己——为此负责,并绝不后悔。

三.AI概念认知

了解AI

什么是AI

        AI是实现推断的概率可以无限逼近100%,最终替代人类做判断、完成任务,甚至超越人类思维和判断能力的科学技术。

AI产品

        互联网时代的产品经理构建的是基础设施,在人与人、人与物、人与数据的关系上搭建桥梁,实质上是优化了信息存储和互通的方式,因此产品经理主要关注的是入口及流量的走向。

        AI实际上给人类带来的是技术创新驱动下的产业升级,本质上是关注产品本身的价值。

        AI产品,本质上是全面优化和提升上述所有场景中现有的技术手段,从而实现用户的体验升级和解决方案的效率升级。

核心要素

        算法、数据、算力3要素是构成AI的根本,3要素的突破是当下AI得以迅速发展的原因,AI 产品经理需要对3要素有深刻的认知以便更好的去进行设计。

算法

概念:
得到输入后能够输出预测、分类结果的AI模型,相当于土壤。

意义:

  • 近些年来算法框架的不断成熟及开源社区的发展大幅度降低了执行算法的门槛;
  • 对于AI 产品经理而言,设计的产品要和公司现有的算法研发能力相匹配,例如避免设计一些 过于超前或落后的产品功能。这需要AI 产品经理对主流的算法模型和框架有基本的认知,并可以做到对各种算法在不同场景下的使用效果进行量化评估。

算法大类:

  • 浅层机器学习;
  • 深度学习;
  • 增强学习。
数据

概念:
作为输入内容提供给AI模型,相当于养料。

意义:

  • 互联网和移动互联网的迅猛发展在数据层面提供了AI学习的基础;
  • 对于AI 产品经理而言,要在产品设计之初就考虑到数据从哪来、数据质量怎么保证、数据治理的工作怎么开展等问题。

数据采集方法:

  • 各种传感器;
  • 摄像头;
  • 麦克风;
  • 触摸屏;
  • 网络数据采集器。
计算能力

概念:

  • 作为把输入数据在AI模型中运算后输出结果的工具,相当于锄头;
  • 只有用锄头(算力)在土壤(算法)中施加养料(数据),才能结出果实(结果)。

意义:

  • 以 GPU、TPU 为核心的大规模集群计算系统的发展及硬件成本的逐步降低基本扫清了计算能力的障碍;
  • 对于AI 产品经理而言,要从需求出发,衡量产品的功能所需求的算法模型需要怎样的系统架构支撑,并能够评估硬件开销。

AI芯片:

  • 通用性芯片GPU:
    • GPU是单指令、多数据处理,采用数量众多的计算单元和超长的流水线,主要处理图像领域的运算加速;
    • GPU无法单独工作,必须由CPU进行控制调用才能工作;
    • CPU可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用GPU进行并行计算。
  • 半定制化芯片FPGA:
    • FPGA适用于多指令,单数据流的分析,与GPU相反,因此常用于预测阶段,如云端;
    • FPGA是用硬件实现软件算法,因此在实现复杂算法方面有一定的难度,缺点是价格比较高。
  • 全定制化芯片ASIC:
    • ASIC是为实现特定场景应用要求时,而定制的专用AI芯片;
    • 除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动设备端。
  • 类脑芯片:
    • 类脑芯片架构是一款模拟人脑的神经网络模型的新型芯片编程架构;
    • 这一系统可以模拟人脑功能进行感知方式、行为方式和思维方式。

云计算技术:

  • 概念:
    • 简单的云计算概念即是将任务分解给无数服务器计算后再将结果合并返回;
    • 高弹性、高效、高性价比;
    • 利用云计算可以大大提升AI学习时的运算效率。
  • 服务类型:
    • 基础设施即服务 IaaS:
      • 提供最基础的物理计算机资源服务,最底层的纯计算机资源服务,计算、网络、存储上的虚拟化以及弹性。
    • 平台即服务 PaaS:
      • 提供具备相应开发环境的计算资源服务,应用层面的弹性。
    • 软件即服务 SaaS:
      • 提供应用软件相关的资源,用于可以直接使用应用软件和数据库。

核心领域分类

图像和视觉处理

计算机视觉 CV:
        将图像、视频信号转化为机器可理解的信息的过程,相当于人的眼睛。

机器视觉 MV:
        用机器代替人眼来做测量和判断。

生物特征识别:
        利用人体所固有的生理特征(指纹、虹膜、面相等)或行为特征(步态、击键习惯等)来进行个人身份鉴定的技术。

虚拟现实 VR:
        利用计算机生成一种模拟环境,使用户沉浸到该环境中。

增强现实 AR:
        是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术。

混合现实 MR:
        是VR的进一步发展,该技术通过在现实场景呈现虚拟场景信息,在现实世界、虚拟世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实感。

即时定位与地图构建 SLAM:
        将一个机器人放入未知环境中的未知位置,让机器人在移动中逐步描绘出此环境完全的地图。

语音和文字处理

自然语言处理 NLP/语义理解:
        NLP及NLU是理解和处理文字的过程,相当于人的大脑。

语言识别 ASR:
        将声音转化为文字的过程,相当于人的耳朵。

语音合成 TTS:
        将文字转化为语音的过程,相当于人的嘴巴。

人机交互 HCI:
        产品形态的语音助手。

认知和推理

机器学习 ML :
        根据过往经验生成具有泛化能力的模型,在遇到新的问题时能做出精准判断。

AI产业链

基础层 —— 上游

概述:
        这一层的企业,从AI领域底层的需求为导向,为下游提供基础设施建设。所以这一层的产品经理对于底层技术框架、技术原理、实现理解的权重更高。

数据层:
        各行业/场景的一手数据获取。

计算能力层:

  • 云计算开发;
  • GPU/FPGA等硬件开发;
  • 神经网络芯片开发。
技术层 —— 中游

概述:
        这一层的企业,是以技术算法迭代为主导,提供AI基础功能软件供客户(2B)调用的,所以这一层的产品经理对于商业技巧、技术原理理解的权重更高。

通用技术层:

  • 计算机视觉CV;
  • 自然语言处理NLP等技术领域研究。

算法层:

  • 机器学习;
  • 深度学习;
  • 增强学习等各种算法开发。

框架层:

  • TensorFlow;
  • Caffe;
  • Theano;
  • Torch;
  • DMTK;
  • DTPAR;
  • ROS等框架或系统开发。
应用层 —— 下游

概述:
        这一层的企业是最多的,它们利用AI在行业场景中寻找落地点,用AI赋能产品,所以这一层的产品经理对于行业、业务理解的权重将更高。

        我认为,相较于以上两层,这一层是对于非全栈互联网产品经理转型的较优切入点

解决方案层:
        如自动驾驶、智能家居等场景应用开发。

应用平台层:

  • 行业应用分发和运营平台;
  • 机器人运营平台等应用平台开发。

AI发展

国内AI市场

        我国AI市场规模在2017年就已经达到237亿,较上年增涨67%,其中计算机视觉市场规模最大,占34.9%。随着2018年AI开始进入商用元年,预计在2019,市场规模超越700亿。

        以此可预期,AI这个我将要依附的经济体正在以一个飞快的速度崛起。

发展与瓶颈

        第一次谈到发展这个话题,则要分享我近期对“发展”的理解,我们都在谈论发展的历史、瓶颈、技术边界…但是把它们列出来了之后,我发现很少有人去把这些点其中的关系描述出来。

        也许是大家都已经在认知中非常熟悉其中关系所以一笔带过,但是我第一次理解这个概念——“限制条件”之后,利用它将“行业发展历史、发展趋势、瓶颈、技术边界”之类的零碎点串联到了一起。

        一切事情是否会“发展”在于“限制”它们的“条件”,是否成熟了而已。

       基于这个认知,我可以去分析很多已经发生的事情的因果关系、去预期很多没有发生的事情的可能概率…比如老生常谈的AI因为3要素限制的突破得到发展,再比如医美技术的成熟让很多人突破了其外在条件对其目标追求的阻碍…

       对于我来说,将它们串联的目的只有一个—— 让我面对问题时,更好地去选择以及取舍。

       所以关于串联,我特别想引用张竞宇老师在其书中提到的,乔布斯的一次关于“电视行业的瓶颈”采访,看乔布斯是如何串联的:

       “电视行业的创新困境是由于市场推广策略导致的。”—— 限制条件是什么

       “电视行业中“补贴”的商业模式,给每个用户一个机顶盒。(很低廉的月消费甚至免费)”—— 进一步定义限制条件

       “结果导致了用户面临的尴尬局面:自己的HDMI高清接口被不同的机顶盒占满了,而且每种机顶盒配套的UI都不一样,遥控器有一大堆。” —— 限制条件对“用户价值”的影响

        “因为这样的商业模式,导致没有人愿意单独购买机顶盒了。(顺便列举具体的公司佐证)”—— “用户价值”对“商业价值”的影响

       “唯一能改变这种局面的方式就是‘回到原点’,将所有的机顶盒都拆掉,换成一个具有唯一UI的机顶盒。但是目前无法实现这样的局面,因为我们改变不了目前主流的推广策略,而这与技术、远见无关。” —— 解决方案,试图突破根本的限制

       “手机之所以和运营商合作推广,是因为手机的GSM即移动电话标准是全球统一的。但是电视不一样,每个国家都有自己的标准和政府监管方案。” —— 最根本的限制无法突破的原因,形成边界

再回顾一遍:发展历史 → 发展趋势 → 出现瓶颈 → 找寻限制条件 → 定义限制条件 → 剖析限制条件带来的影响 → 分析限制条件如何突破 → 分析无法突破的原因 → 形成边界

纵观访谈中乔布斯的应答逻辑,乔布斯串联了每一个关键节点

你不可能从现在预测到未来,只有回头看时,才会发现事物之间的联系。所以你必须相信那些生命中的点点滴滴,将会在你未来的生命里,以某种方式串联。你必须始终相信一些东西——你的勇气、宿命、生活、因缘,随便什么,它们将给你追寻内心真正所想的自信,带你走离平凡,变得与众不同。”

发展趋势:

        关于“发展趋势”与“当下的发展”其实是有一些歧义的,我的观点是“发展趋势”是事情演变最本质的走向——弱人工智能走向强人工智能。

        “发展趋势”因为各种“限制条件”出现而达到暂时的瓶颈,而“当下的发展”更像是对瓶颈的突破——去突破一个个限制条件。

关于瓶颈:

基于“弱人工智能走向强人工智能”这个发展趋势,可以进行分解:

  • 当下是“弱人工智能”时代;
  • 当下朝着“强人工智能”这个方向努力,而“强人工智能”包含以下要求:
    • 强智能化——具备独立进行迅速、强力解决问题的能力、推理能力:
      • 机器/深度学习。
    • 强人性化——突破语义鸿沟,具备感官、真实情感、自我意识,通过图灵测试:
      • 计算机视觉;
      • 语义理解;
      • 语音识别/合成。
  • 当下对于以上要求的能力不足,限制了“强人工智能”的发展,并处在了“弱人工智能”这个瓶颈中:
    • 低级的推理能力 —— 大量的计算、监督、限制环境;
    • 知识面局限;
    • 看不透彻;
    • 听不明白;
    • 说不利索;
    • 不像真人…
  • 这些限制条件带来的影响是:
    • “用户价值”方面:因为AI整体来说并不聪明,用户的信任感并不高,体验也并不好,导致消费的意愿不强,产生的数据不够多;
    • “商业价值”方面:因为消费的意愿不强,企业没有利润和投资的支撑,生存受到了考验,即推动AI发展的动力源就会变得低效,算法迭代速度不够快;
    • “投入”方面:投入即是“科研”以及“投资”,因为市场的热情不高,导致投资人更加谨慎,资金的涌入更少。而科研方面因为没有市场的刺激,意愿变弱…
    • 而对于瓶颈的突破——即是需要付出长期、巨大的努力来对一个个限制条件进行单点爆破,最后将它们有机串联在一起、融合在一起。
当下的发展 —— 用户角度:

人性化:

  • 单纯的简单、精准交互将逐渐不能满足用户需求,用户对AI的期望以及标准将逐步提升,将会需求更人性化、更便宜的服务。
  • 将AI变得更聪明、更像人,能在更开放、复杂的环境下解决问题,除了推动深度学习的迭代、视觉、语音的突破之外,将语音与视觉结合来交付体验是消费级市场的更大期望。

例子:

  • 智能家居:
    • 现在仍然是较为被动的服务体系,需要用户大量干预,例如需要根据用户的主动开关来唤醒或是做出反应,体验不自然,能提供的服务也多局限在单点,串联感很弱且智能感不足。
    • 提供更智能的内核并结合视觉与语音,基于用户的生活方式来提供精准、快速、人性化的服务将值得期待。
  • 自动驾驶:
    • 现在的自动驾驶场景,AI以及用户的视觉注意力在外部;
    • 当自动驾驶技术达到完全成熟之后,出行场景将完全改变,AI和用户的注意力将会回到内部,AI将利用更智能的内核并结合视觉与语音为这个场景提供人性化服务。
当下的发展 —— 企业角度:

智能化:

  • 当下越来越多传统行业的企业开始重视AI,并进行数字化,利用机器智能来赋能其垂直业务来代替劳动密集化,2B业务的成长速度将非常快;
  • 但是基于用客户、用户的升级需求、标准,要想刺激他们消费来提升利润,AI企业就要迎合这个上升的标准做出创新,基于无监督的方向迭代深度学习算法,把服务变得更加智能,并提供更棒的用户体验;
  • 领域的突破与融合正在进行中。

商业化:

  • 基于“智能化”中提到的压力,现在AI企业将从技术为王转到变现为王,如何找到场景、理解场景、融入技术、落地产品并创造营收已经势在必行;
  • 技术能力随着开源以及渐渐趋同,市场已经开始要求AI企业横向拓展规模,纵向下沉业务,在单一业务领域创造的利润难以支撑其高估值;
  • 所以AI企业在证明自身价值吸引资金之外,还有一个意义是通过资金实力来刺激“学产结合”、人才加盟,只有这一环做好了,才能推动限制突破,没有资金一切将成为空谈。

云端化:

  • 大数据+AI算法+云计算 三位一体,越来越多传统企业注重收集线上线下数据、打通、分析,并利用云计算为大数据提供存储和分析;
  • 整个世界产生的数据将越来越趋向数字化,因为没有数据的指导企业就会与时代脱节,这一压力下间接为AI的限制突破提供了不断壮大的基础力量。

思考

思考一个问题,如果AI的风停了,怎么办?

技术成熟度曲线
        2018年的技术成熟度曲线,可以看出深度学习开始从“期望膨胀的顶峰期”下滑。

        并且,不久或将进入“泡沫化的谷底期”,AI这股风的力度也将逐渐减弱,不禁会产生一个疑问—— 如果风停了,怎么办?

当下的趋势:

  • 还是回到刚才“限制条件”的思路,“风”即是“当下的趋势”,“当下的趋势”是试图对“限制条件”的突破;

  • “当下的趋势”是附着在经济上,受到经济周期的制约的;

  • 产生“当下的趋势”,更本质的原因是因为概念的潜在价值可能会为资本方带来非常高的回报。

企业:

  • 组织是附着在“当下的趋势”上,顺势获得更大的价值的;
  • 风停了,资本下行撤出,某些企业没有资本的支撑而没落。

个人:

  • 人是附着在企业上,利用企业为自身赋能、实现愿景的;
  • 风停了,必定是尝试突破某一“关键条件”时短期看不到希望;
  • 对于个人来说,首先思考我们具体身处在何处,再去考虑“关键条件”与我们身处位置的关系,去思考更本质的原因是什么,做到心中有数。

我的观点是:“遵循初心即可,风口是人为的、易变的,但是世界运行的价值规律是不易变的”:

  • 对于组织来说,能把握风口、找到正确商业模式落地并抓住用户,那么风停了组织依然无惧,因为它依然可以持续为用户提供很高的价值从而长盛不衰;
  • 而对于个人来说,本质也是价值,我需要关心自己作为AI产品经理的世界观、个人价值是否也在不断进化,而最核心的是——初心是否经得住考验以及变迁。
  • 最后,引用旷视CEO印奇的观点:

“历史上所有沉淀下来的伟大公司,都是那些能够跨越多个商业周期的公司,一定是着眼长期,建立核心竞争力,聚焦产品本质。”、“商业的逻辑亘古不变,大道至简,不会被人为的风口改变,只是你愿不愿意承认而已。”

小结

        这一章开始对AI是什么、对促成AI发展有哪些关键的因素等有了初步的认知,这是学习一件新事物的开端必不可少的环节,它也搭建“内视”框架的起点。

        随着对AI的不断了解,也对AI即将构造的未来世界越来越心生向往,能够参与其中去为其添砖加瓦也将是一次长线以及浩大的工程,所以,坚持终身学习并不断进化吧!

四.产品认知

经济

        为什么聊产品认知会先谈论经济?因为我最近认为,做一切的事情、一切努力,都只不过是在创造经济机器中的一个小零件…我用这个思路帮助我想清楚我在哪里、我创造零件的价值、我的零件如何升级等一些问题…

        什么是经济?以我目前的理解,经济的本质是人,人设定了这个世界的经济规则、供需关系、价值交换…

        如互联网是一个超大的经济体,无数行业如节点一样依附在上面,行业中多个供需循环环环相扣形成产业链,而大环节中又能拆分为更小的环节,小环节保证了大环节的运转,小环节中的节点维持了小环节的运转…

        技术(AI)是作用于产品本身提升产品价值的,交付的产品/服务与获得的利益则构成了无数小环节中的一环,而产品经理即是小环节中的一个节点,保证了小环节中供需循环的良好运转…

        所以,从个人、团队、组织、产业链、行业、经济体甚至更大体系的角度来审视当下的事情,往往会有不同的思路,对自己所做的事情的本质和意义也会有更深刻的理解

关于性价比

        基于上一段的认知,性价比是促进供需循环的一个关键的因素,即是供需双方的关键决策因素,所以产品经理在设计产品/服务时对这个概念有自己的理解会很有帮助,下面分享一下我的理解。

性价比组成

在这里插入图片描述
对于组织:
        即如何通过最低的“成本”来“最快”地从用户那里获得最高的“商业价值”,尽可能提高性价比。

对于用户:
        即如何通过最低的“价格”来“最快”地从组织提供的产品/服务中获得最高的“用户价值”,尽可能提高性价比。

效率

       在这个公式中,我把效率单独拎了出来,因为我认为效率对性价比的放大作用是关键的,因为效率是组织与用户“共赢”的关键参数。

        例如在电商竞争的趋势中,服务趋同的情况下时效成为提升用户体验的关键,对于用户来说只关心获得产品/服务的时间,时间越短用户体验越好。

        而对于组织来说不但要优化组织的服务效率,更要想方设法影响并提升整个供应链的效率(最近了解到的信息,新零售面临的瓶颈即是来自于供应链的低效),对于整体而言都是多多益善的。

价值组成

商业价值:

  • 本质上是组织获得利益的多少,或者是获得利益的潜力有多大;
  • 其次,商业价值是用户价值的衍生,以组织切实为用户创造了用户价值为前提;
  • 能提升利益以及潜力的指标非常多,各种KPI例如DAU达到多少、下月用户数量达到多少…每个组织都有其长短期利益目标,我认为当下做的这件事情能完成或促成这个利益目标,就具备商业价值。

用户价值:

  • 本质是用户的什么问题,得到了解决、满足的程度。

产品价值:
        在刚才提高的“性价比”的概念,我认为比较适用于产品经理用来指导日常工作中的选择,比如这件事做了对组织对用户的帮助有多大。

        而“产品价值”这个概念又是什么?我自己理解为横向对比竞争对手后组织具备的竞争力,用户其实是权衡了A、B、C…的“产品价值”后,选择最高“产品价值”的产品,再从中获得“用户价值”的,这就涉及竞争关系

俞军老师的产品价值公式则很好的描述了这个关系:
在这里插入图片描述

  • 关于新体验和旧体验则,我可以用自己的性价比概念来理解(并不想单纯理解为单点体验,比如使用手感之类),用户获得的产品/服务的“性价比”有多高,也即:

在这里插入图片描述

  • 而对于替换成本,将其展开对产品的理解会很有帮助:
    • 竞争对手供应链能力:
      • 竞争对手如果已经建立了十分高效、流程化的供应链,那么无论是提供产品/服务的速度还是自身的迭代速度,都将占据领先地位。
    • 竞争对手的品牌知名度:
      • 根据定位理论,竞争对手已经在用户的心智中占据了一个极其有利的地位,在这个情况下新产品要进行硬碰硬,很难取胜。
    • 竞争对手的营销投入水平:
      • 一个理论提到,如果你的营销成本没有超过对手3倍,那么在现有市场进行同纬度竞争,很难取胜;
    • 竞争对手的用户,对其产品/服务的投入程度:
      • 时间成本;
      • 金钱成本;
      • 情感成本;
      • 确定性:确定性形成依赖、粘性甚至成瘾;
      • 网络效应:某些产品如微信,越多用户使用则产品价值越大,要想让一个用户转换到新的即时通讯软件,那么就要说服这个用户的朋友一起转换…这个难度不言而喻。

        所以,产品经理理解这个概念,能在帮助组织的产品在市场上获得优势地位时,提供思考的方向。

        上次看到一个问题,甲方让你做一个和微信一样的产品你该怎么办,即可用这个思路去进行说服…同时最关键的点是清晰明白地去了解其组织的目标和意图,手段是第二步,甲方大概率属于对其组织意图不清晰而提出的错误手段。

AI 产品经理和其他产品经理有何不同

        对于这个问题,或许每个AI 产品经理都有自己的见解。我自己思考多次后,最近一个版本的见解是——当下的关注点不同。

        本质上他们都是产品经理,都是要做出一个又一个正确的选择之后,为用户有效率地提供用户价值,进而为组织有效率地创造商业价值。

        但是,他们依附的经济体处在不同的生命周期导致其当下关注点不同。

互联网技术发展处于成熟期:
  • 互联网技术现在已经非常的成熟,产品的设计思路最主要受限于想法,再到商业模式;
  • 从一个好的想法出发,发现用户痛点;
  • 之后传统行业产品经理、互联网产品经理核心关注点是业务模式、商业化思路,如何利用营销手段来最大化利润;
  • 其次才是考虑如何最大程度兼顾用户体验
  • 随着AI达到阶段性瓶颈,对于技术在当下趋于成熟之后,AI产品经理的关注点将和传统、互联网产品经理趋同。
AI技术处于发展初期:
  • AI技术仍是处于发展的初期,产品的设计思路先是受限于想法,再到技术,再到商业模式;
  • 从一个好的想法出发,发现用户痛点;
  • 之后AI 产品经理的核心关注点首先是产品实现——如何在正确理解场景、痛点的情况下很好的融合技术实现产品化
  • 其次才是考虑如何从产品化演变到商业化;
  • 当然,以上的观点都是基于整个大环境的一个极端的假设——AI产品基本没有成功落地,互联网产品大都成功落地。

产品经理的价值再理解

        之前提到产品经理作为循环中小环节中的一个节点,正常来说一个节点的作用是有限的,但是产品经理是作为一个特殊的节点而存在的——串联者:获取信息→调动组织内有限资源→产品→用户…将几乎所有事情串联起来…

        下面分享我从开篇提到的,“输入→内视→输出”的角度,对AI 整体价值的一个分解。

判断信息

对输入信息的初步判断、筛选,以及积累:

  • 判断或筛选:
    • 判断:批判性思维,判断信息的准确性、精确性、逻辑性、公正性…
    • 筛选:基于信息的合理以及对于当下的相关程度,得出合理的信息内容,为下一个环节提供帮助。
  • 积累:
    • 对行业的认知:通过对身处行业的信息不断积累后,将更能明白如何利用这个行业的价值;
    • 对技术边界的认知:通过对技术思想的不断积累后,将更能明白什么能做,什么不能做,什么以后能做;
    • 对用户的认知:通过对用户反馈的不断积累后,将更能明白如何去寻找那个用户体验与技术的交叉区域,去为其提供更棒的用户体验。
抓住要点

将信息中最本质、对于当下最关键的点提取出来进行处理,力求做正确的事情,体现在:

  • 产品方法论:通过对积累内容的串联,形成框架,在遇到新问题时也能像AI一样快速内视,然后给出最优的解答;
  • 定位产品本质:找到最合适的场景,最核心的需求,设计与之匹配的解决方案;
  • 定义业务边界:基于判断的信息划定什么能做、什么不能做,在能力范围内做到聚焦。
整合资源

跨部门沟通:
        首先定义跨部门沟通的意义,产品经理作为那个串联者,不可避免要协同各个资源点(人即是资源点)去实现目标,如何顺利的协同即体现了产品经理的价值所在;

        所以做跨部门沟通,以下几点我认为很重要:

  • 建立信任:
    • 乐于助人这一点非常好用,我的前直属领导在让我尝试担任主管的时候,告诫我这是他建立信任并进而能够承担更大责任的关键手段…
    • 首先乐于助人必须衡量对方的本质需求
    • 其次衡量自身的能力、时间、精力,没问题的话找机会主动去帮助对方;
    • 这样,即是不断的在对方的人情银行存钱
    • 最关键的是,我们什么时候想取出来,都行…
  • 了解沟通对象:
    • 我一般这么做——请吃饭/请抽烟/请喝饮料;
    • 这件事情的核心价值在于——培养感情,其次要价值在于——获取信息
    • 培养好了感情,本来难推动的事情也许不再困难…获取了关键信息,行事也许将不再如履薄冰…
    • 人的精力是有限的,所以我也不建议每天疯狂的去贴各种人,只需要去连接当下要做的事情的关键人物即可,比如做某个功能模块涉及的产品、程序、美术、测试…
    • 投其所好自由发挥吧,亲身经历非常好使,曾经一个对于其他产品都特别难搞的特效负责人就是我用烟和饮料搞定的…投其所好的威力不言而喻…
  • 永远以组织目标为导向:
    • 作为产品,如果自身就非常清楚组织目标,同时提出的需求也是努力去达成目标的,那么对于要沟通的对象来说,说服力将更强…

关键节点:
        即使建立了信任,也非常熟悉对于的资源点,但是事情往往也并不是一帆风顺的。

        因为——节点是活的,会有其情绪、立场、甚至是既得利益等。

        那么节点受阻的时候,这个节点将成为所谓的“关键节点”,它是存在问题的,如何迅速处理问题并打通节点,将进一步体现产品经理的价值。

  • 定位问题:
    • 问题是什么?
      • 确定问题本质是什么,从现象一步步推到源头究其本质,保证这件事情是真实存在的;
    • 问题可控程度:
      • 确定了问题真实存在,那接下来就把问题的范围确定,聚焦后再去想解决方案;
      • 了解当下的问题是属于什么类型;
      1. 可以控制 —— 迅速聚焦到解决方案上;
      2. 不可控制,但可以影响 —— 借助外力将事情过渡到可控制的范围,再到解决方案;
      3. 不可控制 —— 尝试借助外力来过渡到可控范围或是另寻他法绕过。
    • 问题紧急程度以及对于手段:
      • 紧急重要 —— 强迫,我赢你输:
      1. 可控:这件事情我志在必得,推得动我就会强推,不管那么多的;
      2. 不可控:推不动找能推动的人来推,总之必须马上推过去。
      • 不紧急重要 —— 合作,双赢:
      1. 可控:了解、尊重对方需求,并想办法满足,大家的目的都能达到;
      2. 不可控:满足对方,但是要利用对方的资源将事情过渡到可控范围,进而达成目标。
      • 紧急不重要 —— 让步,你赢我输。妥协,各输一半:
      1. 选择让步还是妥协的关键在于——是否有长期合作的价值。
      • 不紧急不重要 —— 逃避,双输:
      1. 这件事情无关痛痒,直接忽略。
交付价值

执行力,把事情做正确:
        我经常被评价为有执行力的人,但是我在被“惯性”推动的时候完全没有去考虑这件事情,如果我的一些表现即是所谓“执行力”的体现,那么这些点是什么?

现在有时间去回顾后,得出以下几点:

  • 首先是“恐惧”:
    • “恐惧”一直是对我非常强的驱动力,梁宁提出“恐惧”即是回避;
    • 我会因为非常想回避一些事情,去保持高敏感度、压力去驱动自己;
    • 这些我回避的事情:回避指责、回避落后、回避等待…
  • 其次是“无惧”:
    • “恐惧”和“无惧”本身是矛盾的,且“恐惧”是一直存在的;
    • 而这里的“无惧”想表达的意思是,在面对各种外在因素的挑战之后,依然有条不紊地继续去完成目标。
  • 再次是“手段”:
    • 清楚理解目标;
    • 制定计划;
    • 分清条理;
    • 时间管理;
    • 最后,让“恐惧”和“无惧”去让1234飞快地运转…
获取回报

        当做到以上的事情之后——扮演好“串联者”的身份,其实已经能够更好地去平衡“风险”和“回报”了。接下来看结果,市场会给组织反馈,组织会给个人反馈。

小结

        这一章聊了我对产品经理的一些不成熟的理解,在认识“AI”后再重新认识产品经理”的原因是,要努力成为一名优秀的“AI 产品经理”。

五.AI设计流程

        讨论AI设计流程可以有多个角度,比如第一个角度是产品的从0到1——找到场景得出产品概念、产品雏形,第二个角度是产品从1到100——基于确定的产品概念衍生出有“价值”的子产品。

        而我的角度是,基于前两个角度的共性归纳通用的方法流程

        接下来分4个部分来归纳AI设计流程——提出假设、技术预研、产品设计、验证假设,其中主要涉及对技术通识的理解归纳,所以设计流程中许多产品设计的环节暂时不拓展了。

六.提出假设

        这个阶段包含需求分析(对应“用户价值”)以及市场分析(对应“商业价值”),本质它们都是对“产品价值”提出的假设,既然是假设就要有标准手段去进行验证,这一章谈假设、标准,在后面的章节谈验证手段。

        验证假设,本质是为了通过评估清楚风险与回报的关系,来提高成事的概率,需求确定(低风险)且非常有盈利可能性(高回报),才能投入成本去推进这件事情,进而提出一个合理的开发目标。

假设

        机会假设 —— 某个场景下,某类用户具有相同的困难。

        需求分析 —— 从自身出发去分析这个假设的可能性,即“自证”。

用户需求场景

用户描述

        用户是谁,他们是否能划分一类典型群体?

需求描述

        这类典型群体,面临的具体问题是什么?

场景描述

        这个具体问题,是发生在哪些情境、时刻下的?

痛点剖析

真实度
  • 用户面临的这个问题是否可能是痛点?
  • 痛点是否是幻想出来的,是否有依据?
  • 痛点的涉及面有多广,是普遍问题还是个别问题?
  • 痛点来源:
    • 痛点是来源于自身还是外界的某种压力?
      • 为什么存在这种压力?
      • 痛苦链条是什么?
    • 用户的痛点来源于人性的哪一点?
      • 态度/行为——现象;
      • 目标/动机——表象;
      • 人性——本质:
      1. 贪:贪心,因为喜好而产生无厌足的追求,占有的心理欲望;
      2. 嗔:嗔恨,对事物厌恶而产生嫉妒、愤恨、恼怒的心理和情绪;
      3. 痴:
        1). 无知,对事物不了解,愚昧无知;
        2). 痴迷,对事物全情投入,痴狂。
率频
  • 字面意思就是,这个痛多久发作一次,并基于这个频率采取不同的策略;
  • 高频,可以打包卖流量,比如天天刷的抖音;
  • 低频,可以做高客单价,比如一辈子一次(?)的婚礼。
强度

强度分辨 —— 得出假设“低”或“高”:

  • 需求不满足是否能忍受?
  • 如果得到的假设是,用户能忍受,则划定为低强度,大概率伪需求;
  • 如果得到的假设是,用户无法忍受,则划定为高强度,进行下一步论证。

强度值假设 —— 划定到高强度了,那么具体多“高”:

  • 继续刚才的问题,用户不能忍受的话,是否自己想方设法解决?
  • 产品/功能没有问世前,用户自己的解决方案是什么?
  • 这些解决方案,用户是否是遭遇后立即想到的?如唤醒点一般的存在;
  • 如果得到的假设是,用户对此比较被动,那么强度或许没那么高;
  • 如果得到的假设是,用户立即想方设法解决,那么强度或许是很高的,同时我们还能从用户的替代方案中获得灵感。

付费意愿假设 —— 涉及到金钱后,用户是否依然主动:

  • 如果我们提供了解决方案,用户愿意为其买单吗?
  • 如果用户愿意买单,他们愿意付出什么样的代价来解决这个问题?
  • 如果得到的假设是,用户对此比较排斥,那么需要思考产品定位、信任的问题;
  • 如果得到的假设是,用户对此接受,那么进一步论证。

阻碍假设 —— 如何消除,阻碍用户花钱的因素:

  • 感觉到痛的人是否有采购决策权?他是客户还是用户?
  • 感觉到痛的人的采购决策会受到谁的干扰?画出干系人之间的关系图
  • 如何避免这个干扰?

痛点以及解决方案是否合法合规? —— 岛国VS天朝

        论证到了这一步后,进行了一系列阻碍的假设,也理清了各个干系人的关系图,对事情是否能做,以及难易程度也心中有数了…

市场分析
  • 市场的空间有多大?
  • 我们可能面对的是一个什么样的市场环境? —— 现有、细分、全新
  • 产品/功能在市场上的主要竞争对手都有谁? —— 基于现有、细分后的假设
    • 对手优劣势都有哪些?
    • 对手市场占有率如何?
  • 相比对手,我们的优势是什么? —— 之前的“产品价值”概念;
  • 用户选择我们的理由是什么? —— 首先假设“产品价值”得分为正,其次基于“产品价值”概念,量化优势项;
  • 我们预期的投资回报率是多少?

量化标准

        在提出一系列的假设之后,通过“自证”把成事的概率提高了一些,但仍需“他证” —— 通过设定一些列可检验的标准,并接受真实用户的反馈,继续让概率波动,并修正它。

可量化的标准:

回答用户假设,如:

  • 典型用户究竟是谁?

回答需求假设,如:
- 这个需求真的是典型用户的痛点?
- 痛点有多真实?
- 痛点频率具体如何?
- 痛点强度有多强?
- 当前我们AI提供的服务,是否能否解决用户的问题?
- 用户是否真的愿意付费去解决问题?

回答场景假设,如:
- 场景是否真的适合?
- 场景中用户对我们提供的AI服务的最低要求、最低标准是什么?
- 我们AI提供的服务,能够超出用户预期的体验是什么?

回答市场假设,如:
- 我们究竟,面对的是一个什么样的市场环境——现有、细分、全新?
- 我们的竞争对手在哪里?
- 我们的竞争对手的服务,用户满意度如何?

关于增长中的一些假设,如:
- “激活率”是否是产品持续增长的关键因素?——整体改进产品体验的意义;
- “易用性”是否是用户留存的关键因素? —— 简化流程、降低理解成本的意义。

        在精益的方法中,往往一个实验只进行一次风险最大的假设验证,得到经过检验的认知太重要了。

        当然,关于这些指标需要注意的是其可执行、可使用、可审查。回顾之前自己主导的一款产品,全无假设、功能导向、计划导向…想起一句话“焉有不败之理”。

小结

        产品思维博大精深,而且根据其总结的方法论拓展性极强——可以应用于任何事情上

        比如择偶——她的痛点是什么?如何满足她?我有哪些对手?她为什么会选我?她知道我的痛点吗?她满足我了吗?我为什么会选她?…

        所以,努力习得并转化前辈们总结的经验,形成自己的产品方法论非常重要,因为培养了迅速、精准的内视能力从而造就了更强的做选择的能力

七.技术预研

这个阶段将对AI的两大领域进行技术通识的归纳,内容主要集中在计算机视觉部分

目的

        在需求分析并知道“我想要什么”之后,那么做技术预研的核心目的是在评估“我有什么”以及“我愿意放弃什么”,最终得出如何实现的思路。

        技术预研需要关注技术的趋势、领先性、主流算法框架的优劣,而且需要横向比较竞争对手之间的技术实现手段和重点产品参数从中提炼出自身产品的优势。

        如果在某一技术环节中没有优势,那么就需要扬长避短,用产品的其他方面弥补,如用户体验、产品价格或其他附加值等。

        产品经理需要将产品技术底层实现的方式,作为量化产品需求的依据和前提。

        最后,做这件事情的还有一个核心意义,找到用户体验和技术的交叉区域,在保证技术领先的情况下创造最好的用户体验 —— 而这也是产品经理需要懂的所谓“技术”。

图像和视觉处理 —— 计算机视觉概述

        计算机视觉,即让计算机去模拟人类的视觉系统,来获取并理解图像中的信息。

        现在世界上每天产生的数据70%都是以图像或视频的形式呈现,同时世界上的摄像头数量已经过亿,每天存储的视频时长超过了8亿小时。但是,被有效利用的图像、视频数据仍不到20%。

        随着深度学习的发展,虽然数据被利用的程度越来越高,以往处理图像的手段得到了升级,但是计算也开始变得更加复杂,这也决定了“当下的发展”始终被限定在语义鸿沟之中。

        因为生物获取视觉信息的推理过程更为简单、高级,计算机视觉的推理进化仍需要走很长的一段路。

        回到正题,这一节先对计算机视觉的几个主要任务进行认知。

检测与定位

确定是否有目标存在、目标在什么位置以及其包含的关键点坐标,如人脸关键点检测、人体关键点检测:

  • 人脸关键点检测,通过人脸轮廓、器官节点的组合和追踪来识别人的面部特点,是人脸识别的基础;
  • 人体关键点检测,通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要,是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等,也为游戏、视频等提供新的交互方式。
分类

对生物、物体、文字符号进行类别判定后映射到一个标签,如图像分类、视频分类:

  • 图像分类,通过对不同类别图像,以图像的语义信息进行区分,是计算机视觉中重要的基础问题,也是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础;
  • 视频分类,是视频理解任务的基础,与图像分类不同的是,分类的对象不再是静止的图像,而是一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象。因此,理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。
分割

        分割任务主要分为实例分割和语义分割,实例分割是物体检测加上语义分割的综合体;

语义分割,是将图像像素,根据其表达的含义的不同进行分组/分割:

  • 语义是指对图像内容的理解,描绘出什么物体在哪里做了什么事情等;
  • 分割是指对图片中的每个像素点进行标注,划分其类别;
  • 近年来,语义分割被用在无人驾驶技术中分割街景来避让行人和车辆、医疗影像分析中辅助诊断等。

计算机视觉 —— 人脸识别

        人脸识别是当下计算机视觉中应用最热门的一门技术,其执行了检测定位、识别这几个关键任务来达到对人脸的高效辨认,解决了几个关键的问题 :

        如信任——手机相信了你是主人后让你解锁、关卡相信了你是具有许可的人后让你过关、银行系统相信了你是诚信用户后…

        定位——摄像机看到你之后告诉监控系统你在哪…

        所以接下来,我将尽量对所有涉及到的概念进行比较详细的描述,通过在了解人脸识别技术点的过程中更好的去理解计算机视觉概念之间的联系。

概念

        人脸识别技术即计算机通过对采集到的包含人脸的数据进行处理之后,达到分类的目的。

瓶颈

        首先,人脸识别的“发展趋势”亦是朝着“智能化”——推理、“人性化”——理解,的方向发展的,而现在的“瓶颈”也正是因为人脸识别对于人脸的推理能力不足导致的——特征依赖程度高

        回顾之前“瓶颈”的概念瓶颈”是促成“当下的发展”的因素,而“当下的发展”即是要去突破造成瓶颈的“限制条件”;

数据质量限制:

  • 图像质量:
    • 大多数情况下,实际采像质量远低于训练图像质量,即使算法模型可以达到很高的精确度,但由于采像图片质量不好的原因,实际效果会大打折扣甚至不可用,造成采集质量的问题如下:
      • 光照影响:过曝、过暗;
      • 模糊:运动对焦;
      • 分辨率:大场景小样本。
    • 现在如何克服:
      • 提升硬件:
      1. 提升摄像头精度;
      2. 对摄像头进行补光/滤光。
      • 改变环境:
      1. 将摄像头固定在角度合适的位置;
      2. 要求目标配合。
      • 利用算法:
      1. 对图像进行预处理。
  • 图像维度:
    • 人类的视觉系统获取的是3D的信息,而现在的人脸识别技术是基于2D图像的识别——2D图像包含的特征是有限的、是没有深度的,存在很大的被攻击的风险。所以,人脸识别常被质疑安全性不够高,很多人脸识别的产品都能被轻易破解;
    • 为了突破这个限制,即如何获取更精准、全面的信息来保证安全,3D成像技术正随之发展,这一项技术被应用在活体检测上来提升人脸识别的性能;
    • 活体检测:
      • 非活体:
      1. 同一人照片;
      2. 同一人视频/人脸模型重建;
      3. 现在如何克服:
        1). 依照系统随机指令做出动作;
        2). 3D人脸识别。
      • 伪活体:
      1. 相似人;
      2. 3D人脸仿真面具;
      3. 人脸模型实时重建。
      4. 现在如何克服:
        1). 人脸识别技术和其他生物识别技术相结合,例如人脸识别+指纹识别、人脸识别+虹膜识别等等;
        2). 3D人脸识别:由于其点阵投影器、泛光照明灯的特性,可以对其人脸肤色与其它材质有较好的区分性。
  • 数据噪声/体量:
    • 训练算法时,算法性能将受制于被标记数据的质量和数量,若无大量、优质的细分应用场景数据,该特定应用场景的算法迭代很难实现突破:
    • 现在如何去克服:
      • 细分场景数据量:找到细分场景并不断积累;
      • 噪音:
        • 打标方式的选择:
        1. 图像中圈出对应目标:F1值最高;
        2. 从图像中选出包含目标的图像;
        3. Y/S法判断是否为目标:F1值最低。

算法限制:
        本质是因为当前算法难以突破语义鸿沟,而以下两点问题当下尤为明显:

  • 对监督学习的依赖:
    • 需要精准的打标方式,比如圈出对应图片中对应目标的脸才能为学习提供一个良好的养料;
    • 目前这是所有机器学习问题难以跨越的难关,虽然“没有免费的午餐”,但是在计算机视觉方面能够做到无监督学习才能迈向真正的“智能”。
  • 对特征完整性的依赖:
    • 识别原理:
      • 人脸图像的特征映射得到特征空间;
      • 人脸识别在比对的时候,即比对两个人脸的特征空间,距离过远则判定为不相似。
    • 原因:
      • 人脸是具备多变性的,如表情、姿态等导致人脸特征点距离真实位置偏移过大,算法初始化时的特征点不够鲁棒。
      1. 姿态变化;
      2. 表情变化;
      3. 年龄跨度:
        1). 随着人的生长、面部的五官比例、皮肤都会发生变化,这些变化使得人脸识别特别困难。
      4. 遮挡。
    • 现在如何克服:
      • 工程角度:研发质量模型,对检测到的人脸质量进行评价,质量较差则不识别;
      • 应用角度:要求配合;
      • 算法角度:
      1. 概述:
        1). 基于特征点初始化问题,利用深度学习方法粗略计算特征点,再结合几何重投影法来计算精准位置。
      2. 思路:
        1). 使用深度卷积网络粗略估计特征点位置,结合3D人脸姿态估计与重投影确定特征点初始位置,然后使用经典的回归树集成方法提精位置;
        2). 通过深度学习+几何重投影方法初始化,结合传统特征点定位的回归模型ERT,在各个数据集上几乎都达到了最好的性能。
      3. 实现:
        1). CNN模型计算每个特征点概率图,取最大相应的位置为特征点位置;
        2). 计算3D人脸模型,通过POSIT计算人脸3D姿态,并将3D特征点使用计算得到的姿态矩阵重投影到人脸图像中,作为下一步的特征点提精的初始位置;
        3). ERT非刚体形状估计,改进传统回归树模型由粗到细迭代计算特征点位置,直至算法收敛。ERT的特征提取使用快速的FREAK像素比较二值特征。
当下的发展

数据采集:

  • 成像水平:
    • 低分辨率的摄像头将逐渐被取代为高清摄像头,为人脸识别的准确性提供更好的基础;
    • 2D摄像头将逐渐被取代为3D摄像头,为人脸识别的安全性提供更好的基础。

数据传输:

  • 数据存储方式改变:
    • 数据存储方式转变,存储趋向云端化;
    • 今后的数据无需再从DVR之类的录像存储设备转出再处理,获取的图像直接存储云端并进行实时计算。

处理方式:

  • 现在视觉落地的方式的改变:
    • 边缘计算;
    • 云端计算。
    • 云边结合:
      • 随着5G的发展,边缘和后端可以很好互补或是结合,使产品具有边缘的灵活又有云端的强大算力
      • CV的应用场景将更加丰富、灵活,且运算更加高效。
      • 移动场景下,边缘计算为后端计算提供了更高的效率基础,并且因为网络的进步,实时性不再成为瓶颈,例如一些有移动需求的关键场景、要求更高的非关键场景;
      • 举例 —— 巡逻机器人/车:
      1. 城市场景,5G网络环境覆盖;
      2. 在移动情况下执行大规模的M:N比对、报警,即具有机动性的能力同时具备对大量目标的分析计算能力;
      3. 对平安城市的建设具有很大意义,减少了人员的执勤,并极大提高了效率。

算法的迭代:

  • 朝着更少的特征去发展,算法自动计算出缺失特征来达到识别的目的;
  • 朝着更少的监督去发展,算法自动学习无打标数据的能力越来越强;
  • 朝着更开放的环境去发展,AI要求外界的配合程度越来越少。
技术边界

        基于现在难以突破的“限制条件”,形成了技术边界,即能做什么、不能做什么。

能做什么:

  • 能基于大部分完整的人脸图像,做出辨认、分类;
  • 能基于识别的人脸,对目标进行跟踪。

不能做什么:

  • 不能在无光、弱光环境做出准确识别;
  • 不能在非正常体态(头部侧位)、正常表情、大部分遮挡的情况下做出准确识别;
  • 不能对非活体做出准确识别。
前沿研究

成像技术 —— 深度摄像头(3D传感器):

  • 概述:

    • 能够测量视野内空间每个点的深度数据,把握三维结构,使得检测、识别、跟踪等任务变得更加可靠,当前的技术分为结构光、双目视觉、飞行时间法。
      在这里插入图片描述
  • 结构光:

    • 概述:
      • 通过投射器发射特定图形的散斑或者点阵的激光红外图案;
      • 摄像头捕捉被检测物体反射回来的图案,计算上面散斑或者点的大小;
      • 然后通过三角测量原理与原始的尺寸作对比,从而测算出被测物体到摄像头之间的距离。
        在这里插入图片描述
    • 编码结构:
      • 直接编码:

        • 根据图像灰度或者颜色信息编码,需要很宽的光谱范围;
        • 优点:对所有点都进行了编码,理论上可以达到较高的分辨率;
        • 缺点:受环境噪音影响较大,测量精度较差。
      • 时分复用编码:

        • 的该技术方案需要投影N个连续序列的不同编码光,接收端根据接收到N个连续的序列图像来每个识别每个编码点;
        • 优点:
        1. 测量精度很高(最高可达微米级);
        2. 可得到较高分辨率深度图(因为有大量的3D投影点);
        3. 受物体本身颜色影响很小(采用二进制编码)。
        • 缺点:
        1. 比较适合静态场景,不适用于动态场景;
        2. 计算量较大(因为识别一个编码点需要计算连续N次投影)。
      • 空分复用编码:

        • 根据周围邻域内的一个窗口内所有的点的分布来识别编码;
        • 优点:适用于运动物体;
        • 缺点:不连续的物体表面可能产生错误的窗口解码(因为遮挡)。
    • 整体优点:
      • 精度高:
      1. 技术成熟,相比较双目摄像深度图像可以做到相对较高的分辨率;
      2. 结构光投影图案一般经过精心设计,所以在一定范围内可以达到较高的测量精度;
      3. 结构光法不依赖于物体本身的颜色和纹理,采用了主动投影已知图案的方法来实现快速鲁棒的匹配特征点,能够达到较高的精度,也大大扩展了适用范围。
      • 室内适应度高:
      1. 由于结构光主动投射编码光源,因而非常适合在光照不足(甚至无光,尤其是夜间)、缺乏纹理的场景使用。
    • 整体缺点:
      • 室外太阳光包含红外,会造成干扰:
      1. 室外环境基本不能使用。这是因为在室外容易受到强自然光(超过2000Lux)影响,导致投射的编码光被淹没。
      • 红外受距离影响衰减:
      1. 物体距离相机越远,物体上的投影图案越大,精度也越差,相对应的测量精度也越差;
      2. 所以,基于结构光的深度相机测量精度随着距离的增大而大幅降低;
      3. 因而,往往在近距离场景中应用较多。
      • 延迟:
      1. 由于结构光捕获三维信息时有一个短暂的多帧相位信息融合,对于持续移动和快速移动的人脸识别精度会大大降低。
      • 受反光影响:
      1. 容易受到光滑平面反光的影响。
    • 发展趋势:
      • 3D人脸识别的发展。将来人脸识别将应用3D结构光技术,3D技术可有效解决2D的人脸防伪问题,更可以很好的验证人脸的唯一性;
      • 3D人脸信息采集的发展。3D结构光的3D人脸应用中,最大缺陷是缺乏3D人脸的底库,需要一个一个的采集后才能够形成3D人脸库,但是随着3D的发展信息采集也终将会发展起来。
    • 应用场景:
      • 手机摄像头;
      • 人脸门禁系统。
  • 双目视觉:
    在这里插入图片描述

    • 原理:
      • 用两个摄像头模拟人眼来获得信息,整体由两个单目相机组成(两个相机之间的距离叫“基线”是已知的),通过这个基线来估计每个像素的空间位置来测量物体与我们之间的距离,克服单目相机无法知道距离的缺点;
      • 双目相机测量到的深度范围和基线有关,基线距离越大,能够测量到的就越远;
      • 双目摄像机具备一定的深度探测功能,有一定的深度,但属于被动方式
    • 优点:
      • 硬件成本最低;
      • 分辨率高;
      • 精度较高:近距离内能够达到高精度0.01mm-1mm。
      • 抗光照能力强;
      • 可用于室内也可用于室外。
    • 缺点:
      • 性能较低:
      1. 实时性差,且实时性是当前主要问题;
      2. 运算量大、分辨率和精度要求越高则计算越复杂。
      • 开发难度高:
      1. 体现在配置与标定较为复杂。
    • 应用场景:
      • 人脸门禁的活体检测;
      • 防伪。
  • 飞行时间法:
    在这里插入图片描述

    • 原理:
      • 发射激光根据反射时间差计算距离,即测量发射红外信号与相位延迟计算每个Sensor像素到目标物体的距离。
    • 优点:
      • 抗干扰强:
      1. 精准度和稳定性较好;
      2. 适用于室外环境。
      • 开发难度低;
      • 实时性强;
      • 发展空间大:
      1. TOF虽然目前精度在厘米级,比Leap Motion等毫米级要低,但目前的设备已经比Leap Motion等更小也更便宜;
      2. 未来可以做到更小,能够植入移动端。
    • 缺点:
      • 性能不高:
      1. 功耗高;
      2. 体积大;
      3. 发热量大。
      • 成本在三种方案之中最昂贵;
      • 精度低:
      1. 厘米级精度。
      • 空间分辨率低运动模糊。
    • 应用场景:
      • 物体测距。

活体检测技术:

  • 3D人脸识别之外,比如将语音识别与基于视频的唇语识别相结合,确保远程核身的安全性。

人脸物理性质的推理:

  • 基于图像或视频的三维人脸重建;
  • 光照与反射率估计;
  • 光照归一化处理;
  • 人脸姿态的估计与矫正以及基于颜色变化分析的心跳频率估计。

人脸语义上的推理:

  • 基于视频中时空一致性的人脸检测与人物跟踪;
  • 基于视频的三维人脸特征点定位与跟踪于在唇语识别上的应用;
  • 跨年龄与三维的人脸识别;
  • 基于图像视频等可视媒体信号的人脸验证和与基于语音信号的声纹识别相结合。
人脸识别优缺点

优点:

  • 非接触性(不用肢体接触);
  • 非强制性(路过即可,甚至无察觉);
  • 可并发性(可同时进行多个人脸的分拣、判断及识别)。

缺点:

  • 同技术边界;
  • 不能在无光、弱光环境做出准确识别;
  • 不能在非正常体态(头部侧位)、正常表情、大部分遮挡的情况下做出准确识别;
  • 不能对非活体、伪活体做出准确识别。
产业链

概述:
        基于“产品认知”章节的观点,了解自身所处在循环中的位置很有必要

        所以要从产业链中找到自己产品对应的环节,观察前后环节对自身的影响并横向对比在同一环节中的竞争对手状况,来更好的去对自身循环进行控制

为了保证自身循环的良好运转,了解的内容有:

  • 上下游议价能力、实力、效率、威胁;
  • 同游实力、效率、威胁。

上游:

  • 高清摄像头;
  • 芯片;
  • 传感器;
  • 服务器;
  • 数据计算以及传输。

中游

  • 图像识别软件厂商。

下游:

  • 解决方案提供商;
  • 用户;
  • 维修保养等服务。

重点落地行业
        计算机视觉目前主要落地于安防、金融、零售,这三个行业在后面的章节进行分析。

实现

系统架构:

  • 边缘计算:
    在这里插入图片描述

    • 概念:
      • 人脸识别和比对均在前端完成,后台只负责任务调度和告警后处理。
    • 优点:
      • 轻量化部署;
      • 对传输的要求低,甚至可以做到微波传输;
      • 强大的前端也可以变得更加便携,集成在移动巡逻车上,单兵设备上,甚至民用级无人机上,应用场景被极大的拓展。
    • 缺点:
      • 前端受体积和功率限制;
      • FPGA的算力和扩展性毕竟无法与专业GPU计算卡相比,而把专业的GPU计算卡放在前端,数量和功率都将受到极大的限制。
    • 应用场景:
      • 边缘计算的人脸识别方案更适合于少目标、少接入、小场景、要求机动性的业务场景中应用。
  • 云端计算:
    在这里插入图片描述

    • 概念:
      • 人脸识别抓拍(不带属性检测)可在前端或后端进行,对人脸图片的分析和结构化均交由云端强大的GPU集群来完成。
    • 优点:
      • 可实现大规模甚至超大规模(百亿级数据)的布控和实时分析,接入视频路数的限制只在于GPU集群的扩展能力,而一般GPU集群都具备强大的横向扩展能力;
      • 这一方式对前端摄像机的要求极低(甚至可以采用老旧的模拟摄像机);
      • 在平安城市或智慧社区的改造项目中,采用这种方式可以更好地利旧已有前端,并且继续使用已有视频管理系统,对现网的改动小,易于部署。
    • 缺点:
      • 对传输网络要求较高,如果采用普通视频流摄像机接入,视频网络的压力非常大;
      • 后端处理的方式受限于GPU集群的硬件环境,不具备机动性
    • 应用场景:
      • 后端集群的人脸识别方案适合于海量目标、海量接入、海量数据、多场景、不要求机动性的业务场景中应用。

图像采集:

  • 目的:

    • 目的是使被测物的重要特征显现,同时抑制不需要的特征。
  • 采集方式:

    • 源头采集:
      • 对接相机;
      • 对接DVR/NVR等录像存储设备。
    • 间接采集:
      • 开源数据集;
      • 第三方企业单位提供;
      • 产品/项目积累;
      • 用户上传。
    • 无论何种获取方式,图像归根结底是通过各类相机产生的,相机选型、架设、调试以及平台对接是前期图像获取的关键。
  • 相机选择:

    • 相机的脑功能决定了图片质量的上限,选择相机需要考虑产品使用场景,并结合相机的功能、性能指标进行综合考虑;
    • 监控一体机:
      • 专门用于户外的相机,防雨、防雷、防雾、逆光调节、补光、夜视。
    • 人脸抓拍机:
      • 对人脸抓拍率、识别率要求高则要选用专业的人脸抓拍机;
      • 内嵌AI人脸算法,自动捕获进入检测区域的人脸并进行追踪抓拍;
      • 优点:
      1. 可直接输出人脸图片流,不需要再服务器进行检测,降低了服务器的计算压力;
      2. 具有出色的人脸曝光效果,增强了在逆光下的抓拍效果。
      • 缺点:
      1. 价格高。
      • 常用功能指标:
      1. 智能分析功能:
        1). 绊线;
        2). 双绊线;
        3). 周界;
        4). 物品遗留;
        5). 徘徊分析。
      2. 智能报警功能:
        1). 遮挡报警;
        2). IP冲突;
        3). MAC冲突;
        4). 存储器满;
        5). 存储器异常。
      3. 支持网络协议;
      4. 图像处理:
        1). 图像增强;
        2). 背光补偿;
        3). 透雾;
        4). 走廊模式;
        5). 图像风格可选。
      5. 彩转黑;
      6. 强光抑制、背光补偿;
      7. 本地SD存储;
      8. 断网续传。
      • 常用性能指标:
      1. 像素:
        1). 200万以上为宜。
      2. 图像分辨率:
        2). 主码流最高分辨率需要不低于1080P。
      3. 宽动态:
        1). 室外场景需大于120DB。
      4. 最低照度:
        1). 彩色<0.001 lux;
        2). 黑白<0.0001 lux;
        3). 越低性能越好。
      5. 防护等级:
        1). 户外IP65以上;
        2). 防雷;
        3). 防浪涌。
      6. 功耗:
        1). 一般在10W以内。
      7. 工作温度:
        1). 室外30°C——60°C。
  • 镜头选择:

    • 注意:
      • 焦距决定了相机的成像距离,需要根据项目对人脸识别距离要求来选择合适的焦距。
    • 变焦:
      • 镜头焦距可以手动调节,识别距离更广,也具有更高的适用性。
    • 固定焦距。
  • 相机架设:

    • 俯仰角:
      • 要求水平面位于通道中轴线上,并垂直面上有一定的俯视角以照顾不同高矮;
      • 避免一前一后通过抓拍区域时后方人脸被遮挡,俯视角α保持在10°±3°。
    • 架设高度:
      在这里插入图片描述
      • 基于俯仰角进行计算,设俯仰角α=10°
      • 摄像机视角中轴线延伸到人脸下颌位置,保证人脸处于画面中心区域,取成年人下颌以下的平均高度为1.5m(头部长0.2m),可得:
        在这里插入图片描述
    • 架设环境:
      • 出入口中间空旷、无遮挡;
      • 聚焦清晰、光照均匀,特别注意避免逆光、侧光、必要时进行补光;
      • 人脸的俯仰角在15°,左右角在30°以内。
    • 画面调整:
      • 目的是获得合适的观察宽度;
      • 相机像素大小决定了设备可观察画面宽度的范围,过大导致人脸模糊;
      • 人脸宽度像素宜大于120,瞳距像素宜大于40。
  • 相机对接:

    • 大部分人脸识别的场景,是建立在对实时视频流/图片流分析的基础之上;
    • 如果想检测一个摄像机实时画面中的人脸,平台就需要先获取相机的实时视频流;
    • 网络协议定义:
      • 前端相机与平台之间是通过网络连接的,如果想实现对接,就需要平台满足相应的网络协议;
      • 网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合;
      • 简而言之,视频信号传输的规则
  • 网络协议的结构:

    • 应用层:
      • TELNET;
      • FTP;
      • E-MAIL。
    • 传输层:
      • TCP;
      • UDP。
    • 网络层:
      • IP;
      • ICMP;
      • IGMP。
    • 网络接口层:
      • 设备驱动程序及接口卡。
    • 通过协议接入相机:
      • 平台对接相机的目的是获取相机的实时视频流或图片流;
      • 一般相机:
      1. RTSP。
      • 人脸抓拍机:
      1. FTP。
      • 国内政府公安类项目,安全级别比较高,会用到ONVIF/28181协议。
  • 采集注意事项:

    • 处理以下问题,大多使用硬件和算法来解决,但是核心关注点是时间以及成本的平衡
    • 图像大小:
      • 指的是图片文件占用存储空间的大小;
      • 图像大小反映在实际应用场景就是人脸离摄像头的距离;
      • 人脸图像过小会影响识别效果,人脸图像过大会影响识别速度;
      • 非专业人脸识别摄像头常见规定的最小识别人脸像素为6060或100100以上,在规定的图像大小内,算法更容易提升准确率和召回率。
    • 图像分辨率:
      • 图像中存储的信息量,每英寸图像的像素点;
      • 图像大小综合图像分辨率,直接影响摄像头识别距离;
      • 越低的图像分辨率越难识别;
      • 现4K摄像头看清人脸的最远距离是10米,7K摄像头是20米。
    • 光照环境:
      • 过曝或过暗的光照环境都会影响人脸识别效果。
      • 解决方法:
      1. 系统提示用户进行环境调整;
      2. 硬件功能对光线补充,补光、防曝;
      3. 算法优化图像光线;
      4. 如果需要算法进行处理,就要考虑计算时间,在当下的场景多长的时间能满足需求,同时如果当下技术的返回速度又是多少。
    • 模糊程度:
      • 模糊分类:
      1. 运动模糊:物体运动导致。
      2. 对焦模糊:摄像头距离导致,图像中低频存在高频缺失。
      3. 低分辨率差值模糊:小图放大导致,图像中低频存在高频缺失。
      4. 混合模糊:多种模糊类型共同存在。
      • 现状:
      1. 实际场景主要着力解决运动模糊,人脸相对于摄像头的移动经常会产生运动模糊。
      • 解决方案:
      1. 部分摄像头有抗模糊的功能,而在成本有限的情况下,考虑通过算法模型优化此问题。
    • 遮挡程度:
      • 五官无遮挡、脸部边缘清晰的图像为最佳;
      • 而在实际场景中,很多人脸都会被帽子、眼镜、口罩等遮挡物遮挡,这部分数据需要根据算法要求决定是否留用训练。
    • 采集角度:
      • 人脸相对于摄像头角度为正脸最佳;
      • 但实际场景中往往很难抓拍正脸。因此算法模型需训练包含左右侧人脸、上下侧人脸的数据。工业施工上摄像头安置的角度,需满足人脸与摄像头构成的角度在算法识别范围内的要求。
  • 人脸库:

    • 概念:
      • 脸库就是人脸数据的储存管理中心:
      1. 人脸对比库——能够为人脸识别提供比对模板;
      2. 人脸抓拍库——为抓拍人脸数据提供管理空间;
      3. 人脸数据集——为人脸算法提供了测试/训练样本。
      • 人脸识别项目是建立在人脸库的基础之上,所以人脸识别的首要任务便是是建立人脸库。
    • 人脸对比库:
      • 概念:
      1. 人脸1:N识别,将人脸抓拍照片的人脸特征与人脸库中所有人脸特征进行逐一比对。
      • 分类:
      1. 黑名单库:
        1). 黑名单指需要重点管控、关注的人员;
        2). 一般由在逃犯、惯犯、水客、异常行为或是想要重点关注的人员构成;
        3). 黑名单中会产生报警提示,常用于公安追逃。
      2. 白名单库:
        1). 白名单一般指可信人员,常用于商业领域中的通行管理,白名单中的人员容许进入通过。
      3. 灰名单库:
        1). 介于白名单和黑名单之间,是一类具有异常行为的可疑人员,还需要通过更多数据分析他们是否是黄牛、小偷、罪犯同伙等。
      4. 红名单库:
        1). 红名属于白名单的拓展应用,用于白名单中需要重点关注展现的人群;
        2). 如VIP客户、领导人等,可在识别后进一步分析该人群的行为特点和活动范围。
      • 组成:
      1. 人脸管理库:
        1).添加;
        2).删除;
        3).修改;
        4).查询;
        5).分组。
      2. 人脸数据:
        1). 人脸照片;
        2). 姓名;
        3). 证件号;
        4). 身份类型;
        5). 住址;
        6). 联系方式。
        7). 人脸特征向量。
      3. 人脸库属性描述:
        1).人脸库类型;
        2).人脸库规模;
        3).人脸库用途。
      • 建立:
        在这里插入图片描述
      1. 梳理入库流程:
        1). 人脸数据包含人脸特征向量、人脸信息;
        2). 这两个信息存储在数据库的不同表中,注意在删除人脸库照片时一定要删除它对应的特征向量。
      2. 制定入库规则:
        1). 人脸数据的质量关系到人脸比对的效果,尽可能将人脸清晰、正脸、本人近期的人脸照片入库;
        2). 在人脸入库时,产品经理需要制定入库规则来过滤质量不佳、格式不规范的人脸数据。
      3. 规则:
        1).图片的颜色:可支持彩色及灰度的图片,最低要求256灰度图片。
        2).图片的格式:各类主流图片格式,例如bmp/jpg/png等,图片命名格式统一,如常用的命名“姓名_证件号”。
        3).图片像素:双眼中心之间的距离大于30像素。
        4).图片尺寸:尺寸大于70*80以上。
        5).人脸角度:人脸左右偏转30°以内,上下偏转20°以内。
        6).图片大小:几十KB到一百KB之间为宜,但也不能太大,超过500KB,会影响入库速度。
      4. 设计人脸库功能、界面:
        1).人脸库应包含人脸信息的增、删、改、查等基本功能;
        2).必要的人脸字段需要根据用户需求来定。
      5. 采集人脸数据:
        1).公安类项目:人脸数据提供方是公安,公安内部有大量的人脸数据,可通过对接公安信息资源库来获取人脸数据。
        2).刷脸通行或新零售类项目;
        3).一般是用户配合式采集人脸信息:需要设计人脸信息采集入口,用户可在微信公众号、手机app或PC端进行注册时上传人脸信息。
        4).大型商业类或平安城市项目:需要设计非配合式采集人脸信息,一般会通过在主要出入口、通道、走廊等地部署的人脸抓拍机,抓拍路人人脸,自动建立该人档案库。
    • 人脸抓拍库:
      • 概念:
      1. 人脸抓拍库是管理人脸抓拍数据的地方;
      2. 在视频流或图片流中凡是能被算法检测到的人脸,都会经过图像处理形成一张张人脸的抓拍照片及对应的场景照,再将抓拍照片进行数据结构化并与其场景照一同保留至人脸抓拍库中。
      • 分类:
      1. 结构化:人脸结构化数据指将原始采集数据按照规则处理,形成具有统一格式,并用数据库二维逻辑表来表现的数据。
      2. 非结构化。
    • 人脸数据集:
      • 概念:
      1. 人脸数据集就是用于检测人脸算法效果和训练算法的数据库。
      • 分类:
      1. 人脸识别;
      2. 人脸检测;
      3. 人脸表情;
      4. 人脸年龄/性别。
  • 视觉处理:

    • 目的:
      • 把一张图对应到一个文字或标签。
    • 图像预处理:
      • 目的:
      1. 图像预处理的目的是消除图像中无关的信息,使它具有的特征能够在图像中明显地表现出来;
      2. 即尽可能去除或者减少光照、成像系统、外部环境等对图像的干扰。
      • 手段:
      1. 灰度化:
        1).将彩色图像转化为灰色图像的过程。
      2. 直方图均衡化:
        1).直方图均衡化主要目的是为了提高对比度和灰度色调的变化,使图像更加清晰;
        2).直方图描述了一副图像的灰度级内容。
      3. 中值滤波:
        1).图像滤波的主要目的是,在保持图像特征的情况下进行噪声消除;
        2).具体可以分为线性滤波和非线性滤波;
        3).非线性滤波相比线性滤波来说,更能保护图像细节。
    • 人脸检测:
      • 人脸位置检测:
      1. 目的:
        1).目的是在图像中准确标定出人脸的位置和大小;
        2).对于跟踪而言,还需要确定帧间不同人脸间的对应关系。
      • 人脸关键点检测:
      1. 目的:
        1).自动估计人脸图片上脸部特征点(眼睛、嘴巴轮廓特征点等)的坐标。
      2. 基本思路:
        1).将人脸局部器官的纹理特征和器官特征点之间的位置约束进行结合来进行处理。
      • 手段:
      1. CNN;
      2. viola-jones框架;
      3. DPM。
      • 检测指标:
      1. 查准率:
        1). TP/(TP+FP)。查准率越高,代表检测模型效果越好;
        2). 即预测对的人脸数量,占被预测为人脸的数量的多少。
      2. 查全率:
        1). TP/(TP+FN)。查全率越高,代表检测模型效果越好;
        2). 即预测对的人脸数量,占实际人脸总量的多少。
      3. 误检率:
        1). FP/(TN+FP)。误检率越低,代表检测模型效果越好;
        2). 即预测错的人脸数量,占实际非人脸总量的多少。
      4. 漏检率:
        1). FN/(TP+FN)。漏检率越低,代表检测模型效果越好;
        2). 即没有被预测的真人脸数量,占实际人脸总量的多少。
      5. 速度:
        1). 从采集图像完成到人脸检测完成的时间。时间约短,检测模型效果越好。
    • 人脸对齐:
      • 目的:
      1. 根据人脸特征点的位置,对人脸进行几何校正并割取人脸区域(归一化到固定大小)之后,得到最具有鉴别(区分)能力的特征的过程。
      • 手段:
      1. 归一化:通过一系列变换,将待处理的原始图像转换成相应的唯一标准形式(该标准形式图像对平移、旋转、缩放等仿射变换具有不变特性),使得图像可以抵抗几何变化的攻击。
    • 特征提取:
      • 目的:
      1. 从定位、关键点检测好的人脸中,找到我们所关心的区域并忽略我们不关心的区域
      • 注意:
      1. 对框架的选择决定了产品质量的好坏;
      2. AI产品经理不仅需要理解每种核心框架的基本逻辑,而且要了解框架之间的区别,对于前沿技术的发展要保持敏感度。
      • 手段:
      1. Deep face:
        1). Deep face与其他方法最大的不同在于,Deep Face在训练神经网络前,使用了基于3D模型人脸对齐的方法;
        2). 使用深度神经网络学习特征;
        3). 该模型在LFW数据集上取得了0.9735准确率。
      2. Deep ID:
        1). Deep ID有三代:Deep ID、Deep ID2、Deep ID2+;
        2). 其中DeepID2+对遮挡有很好的鲁棒性。
      3. FaceNet:
        1). 直接将人脸图像映射到欧几里得空间,空间的距离代表了人脸图像的相似性;
        2). 该方法基于深度卷积神经网络。FaceNet得到人脸最终表示后不用像Deep ID那样需要再训练模型进行分类,直接计算距离,效率很高。
    • 人脸匹配与识别:
      • 目的:
      1. 将提取的人脸特征数据与数据库中储存的特征模板进行搜索匹配,设定一个最佳的相似度阈值,当相似度超过该阈值,则输出匹配后的结果。
      • 分类:
      1. 人脸1:1:
        1). 人脸1:1一般用于人证核验,可以简单理解为证明你就是你;
        2). 人脸1:1又称为静态人脸比对,同时具有配合式的特点,完成比对需要用户携带身份证并主动配合采集人脸。
      2. 人脸1:n:
        1). 人脸1:n是将一张人脸照片与人脸库中的多张人脸进行一一比对,人脸库有多少人脸就需要比对多少次,找出“我是谁”;
        2). 人脸1:n又称动态人脸比对,因为比对照片是从动态视频中获取的,同时具有非配合特点,整个比对过程是无感知的,不需要人为配合;
        3). 注意:通常会受到光照变化、人脸姿态的影响,比如侧脸、低头、逆光现象会大大提升人脸漏报率。“n”的大小(人脸库照片的数量)会影响人脸识别的准确率和比对速度,所以比对人脸库规模会设置的相对较小。
      3. 人脸1:N:
        1).人脸1:N又称静态大库检索,即以人脸图片、人脸相似度作为检索条件,在人脸库中搜索与其相似(相似度大于设定阈值)的图片;
        2).人脸1:N的人脸库规模相较于人脸1:n会大很多,最高可支持亿级人脸检索,所以这里的N为大写。
      4. 人脸M:N:
        1).人脸M:N实际就是两个人脸库进行比对,相当于M个1:N;
        2).人脸M:N常用于惯犯排查、身份查重。

应用场景

  • 人脸检测:
    • 人脸关键点:
      • 人脸美颜;
      • 人脸换妆;
      • 3D、卡通人脸。
    • 人脸属性:
      • 年龄判断;
      • 性别判断;
      • 表情判断;
      • 颜值计算。
  • 1:1:
    • 云计算:
      • 商业库:
      1. 企业员工管理;
      2. app远程身份确认;
      3. 用户密码自助取回;
      4. 用户安全管理。
      • 身份证库:
      1. 证券自助远程开户;
      2. 在线医疗挂号;
      3. 在线教育考试报名;
      4. 政府相关app注册。
    • 离线计算:
      • 公共安全身份证比对(无采集):
      1. 火车、飞机安检;
      2. 流动人口管理;
      3. 银行信贷审核;
      4. 酒店住宿人员审核。
      • 线下人脸比对(有采集):
      1. 门禁系统;
      2. 智能机器人视觉。
    • 混合计算:
      • 线上登记;
      • 线下比对。
  • 1:n/N、M:N:
    • 监控实时运算:
      • 人脸轨迹分析;
      • 同行人报警;
      • 落脚点分析;
      • 人脸碰撞;
      • 出行规律分析;
      • 超时报警;
      • 区域管控。
    • 人像搜索:
      • 智能相册;
      • VIP用户确认;
      • 签到。

计算机视觉 —— 光学符号检测

        光学符号检测、多目标跟踪也是计算机视觉中的热门方向,基于jasmine分享的内容,此处在人脸识别之后我也继续进行归纳,多获得一个方向的认知也是很不错的。

概念

        将图像上的字符进行分析识别,将其准化为文本格式的字符序列。

实现

图像采集:

  • 摄像头选取需要考虑到两个指标:
    • 像素分辨率:
      • 可以通过所检测物体的最小特征决定像素分辨率;
      • 像素分辨率=(检测物体最大长度/物体最小特征值)*2;
      • 假设字符最大长度为300mm,最小特征值为1mm,则最小所需分辨率为600。
    • 摄像头焦距(F):
      • CCD传感器的尺寸(Ss);
      • 工作距离(摄像机镜头到被测物体的距离Wd);
      • 摄像机的视场范围(Os);
      • F由以上3个参数决定,若系统要求严格,还需采用预防抖动的数码相机采集图像。
  • 图像常见格式有BMP、GIF、JPG等,其中BMP格式最不容易出问题。

图像预处理:

  • 二值化;
  • 图像增强;
  • 噪声处理;
  • 滤波。

特征提取:

  • 灰度聚类:
    • 聚类:
      • 聚类是根据图像特点自适应地进行多值化的过程。
    • 分割:
      • “极大值极小值分割”聚类方式:有多少个极大值点,就聚为多少类,并且以极小值作为类别之间的边界。通过聚类可将图片分成不同图层。
  • 分层识别:
    • 每一层图像由若干联通区域组成,在此时需要文字具有一定抗腐蚀能力:
      • 腐蚀:图像中高亮区域被腐蚀,高亮区域减少;
      • 联通区域边界线越短,抗腐蚀能力越强;
      • 联通区域边界线越长,抗腐蚀能力越差;
      • 联通区域的抗腐蚀能力=该区域被腐蚀后的总面积/该区域被腐蚀前的总面积;
      • 文字区域的抗腐蚀能力大概在[0.1,0.9]之间。
    • 去噪;
    • 池化:
      • 对特征层进行整合。
    • 完善:
      • 高低密度区排除;
      • 孤立区排除。

文字定位:

  • 邻近搜索:
    • 目的是圈出单行文字;
    • 由于部分汉字是由很简单的其他汉字组成,比如“胆”就是由“月”和“旦”组成,我们需要经过邻近搜索算法,整合可能成字的区域。
  • 文本切割:
    • 目的是将单行文本切割为单字;
    • 利用切割方法(比如均匀切割),将单行文本切割成一个一个的单字。

光学识别:

  • 模型选择:
    • 选择卷积神经网络模型。
  • 训练数据:
    • 除可直接获取到的数据外,还可利用程序自动生成一批训练数据,需要考虑到以下因素。
  • 因素:
    • 字库的字体数目;
    • 同字不同字体;
    • 同字不同颜色;
    • 同字不同大小;
    • 同字不同清晰程度;
    • 中英文数字等等语言种类;
    • 噪音影响。
  • 输出结果:
    • 有形近字的情况,优先考虑高频字:例如”天“和”夭“,“天”出现的频率更高,优先考虑“天”;
    • 通过模型精确率评估模型效果;
    • 对数据进行随机增加噪音,测试模型的效果;
    • 后期处理校正:利用人工或者上下文关系,对识别结果进行校正;
    • 若需按照原文排版识别,还需用版面恢复算法将输出结果输出到word或者pdf。
应用场景

证件识别:

  • OCR提取身份证信息:
    • 本技术可用于安防、金融、电信等等领域;
    • 身份证信息提取包括了身份证照片提取及文字提取,在整个过程中可以先识别出人脸的位置再直接定位各数据位置。不用针对整个识别区域定位;
    • 身份证识别可在手机端的app里集成SDK,通过手机照片即可识别。也可通过云端识别,返回具体的识别结果;
    • 身份证图像字符分布规律,可采用水平投影法进行行分割,垂直投影进行字符分割;
    • 识别效果可通过误检率评估,影响效果的因素有身份证清晰度、倾斜度、光照、对比度等。
  • 驾照;
  • 行驶证;
  • 营业执照;
  • 车牌;
  • 票据。

广告过滤:

  • 描述:
    • OCR除了常规识别身份证、名片等等用途,还可以用来过滤广告;
    • 现在很多直播平台、社交网站等都被广告充斥,而人工筛选这类广告需要耗费大量的精力。
  • 注意事项:
    • 广告过滤的难点除了文字提取识别外,还有背景的识别。广告背景通常会是商家的产品,这提高了OCR识别的难度;
    • 广告文字很少有常规的字体,不同角度、颜色、字体的文字非常常见,繁体、火星文也常被用于广告文字。这就对模型的泛化要求更高;
    • 在本场景中,除了准确率和召回率外,漏检率是非常重要的指标。

教育场景:

  • 描述:
    • 在试题识别的场景下应用十分广泛,现在的作业帮、学霸君等app就可以通过拍照上传试题,通过人工解答或搜题给出结果。
  • 注意事项:
    • 本场景下对文本定位的要求很高。而很多照片里都会含有不相干的信息,因此产品设计需考虑到文本框选的自由性;
    • 中英文、数字、特殊字符种类繁多,且版面分布不均,使得识别更难。产品需要考虑到识别结果的多种反馈,可以给出参考性结果、相似题目等备选项。

计算机视觉 —— 多目标跟踪

概念

        找到图像序列中运动的物体,并将不同帧的运动物体一一对应,最后给出不同物体的运动轨迹。

术语解释:

  • 检测:
    • 定位目标在图像中的位置。检测方法很多,例如帧间差分法、背景减除法、光流法等等;另外,检测常与识别结合。
  • 跟踪:
    • 所谓跟踪,就是在视频里面第一帧时锁定感兴趣的物体,让计算机跟着走,不管怎么旋转晃动,甚至躲在树丛后面也要跟踪;
    • 在连续图像序列中完成对目标的检测,并把物理意义下同一目标相关联。
  • 轨迹:
    • 一条轨迹对于这一目标在一段时间内的位置序列;是多目标跟踪系统的输出量。
  • 数据关联:
    • 用于解决目标间的匹配问题;是多目标跟踪的核心问题。
  • 跟踪置信度:
    • 跟踪算法反应每一次跟踪的可靠程度。
实现

图像采集;
图像预处理:

  • 直方图均衡;
  • 滤波。

基于深度学习的多目标检测识别:

  • 目标检测的实质是多目标的定位,即要在图片中定位多个目标物体。
  • 多目标跟踪:
    • 遮挡、目标消失后再出现,会有丢失目标的现象;
    • 相似目标容易被当作同一目标;
    • 由于以上原因,在实际场景里多目标跟踪可能会发生人员重复检测、漏检、同一目标多条轨迹等情况。
  • 相关指标:
    • 查准率;
    • 查全率;
    • 识别精度:目标检测中衡量检测出精度的指标是平均正确率均值mAP(mean average precision);
    • 检测响应:检测过程的输出量;
    • 识别效率:识别的速度。相对应选择效率极大化的迭代算法;
    • 交并比(IoU):可以理解为系统预测出来的框与原来图中标记框的重合程度,最理想的情况是完全重叠,即比值为1。
应用场景
  • 目标识别常用来确定某画面或视频中包含什么物体、各个物体在什么位置、各个物体的轨迹。因此常用于监控,人机交互和虚拟现实的场景。
  • 人员检测:
    • 计算画面中行人的数目,并确定其位置;
    • 可用于计算区域人员密度过高告警;
    • 可用于范围监测告警(越界监测):例如闯红灯、翻墙等事件;
    • 异常行为检测:目标突然发生剧烈变化,如打架斗殴等行为。
  • 车辆识别:
    • 计算画面中车辆的数目,并确定其位置;
    • 和车型识别、车颜色识别、车辆逆流检测等结合,实现对车辆特点的全识别;
    • 交通疏散:针对有可能发生拥堵的区域提前进行部署。
    • 追踪黑名单车辆:车辆检测可识别车辆类型、车辆颜色等等,这些信息均可用来定位目标。
    • 防车辆套牌方案:车辆识别和车牌识别结合,防止车辆套牌案件发生。
  • 应用于智能驾驶方案:
    • 目标识别和场景分割、SLAM结合,可识别出道路路况,提供智能驾驶所需要的路边物体信息。

语音和文字处理 —— 自然语言处理 NLP

        自然语言处理目前是限制AI发展中众多限制条件里的“关键条件”,一旦这一“关键条件”突破,人类就能真真切切的感受到AI的智能化,同时人机的交互方式也将改写。

        所以除了计算机视觉之外,对语言这块最好也要有一定的认知。
在这里插入图片描述

概念

        是理解和处理文字的过程,相当于人的大脑。

流程

理解:

  • 文本/语义理解 NLU。
    处理:
  • 对话状态维护 DST;
  • 动作候选排序 POLICY。
    应用:
  • 语言生成 NLG。
瓶颈

        自然语言处理的“发展趋势”是能理解目标说的话的意义。以下的“限制条件”构成了瓶颈,相对于计算机视觉来说,自然语言处理距离突破“限制条件”似乎更为接近了。

语言本身的难度限制:

  • 语言歧义性;
  • 语言多样性;
  • 语言多变性;
  • 语境复杂性。

数据质量限制:

  • 错字;
  • 多字/少字;
  • 别称;
  • 不连贯;
  • 噪音。

知识依赖。

实现

规则方法:

  • 上下文无关的语法分析,主谓宾/动状补。

统计法:

  • N-GRAM语言模型-离散 → NLPM神经概率语言模型-连续 → WORD EMBEDDING词嵌入 → 词语相似度、关系、映射 → 句子表示。

深度学习:

  • RNN:循环神经网络,把句子看做由词语组成的序列,循环计算;
  • CNN:卷积神经网络,把句子看做自底向上的组成式结构,池化。

文本相似度:

  • 文本距离:
    • 指的是两个文本之间的文本相似度;
    • 与文本相似度呈负相关;
    • 距离小离得近,相似度就高;离得远则相似度就低。
  • 欧氏距离:
    • 适用场景:编码检测等类似场景,两串编码必须完全一致才能过检;
    • 不适用场景:对位置和顺序非常敏感,语义相同的句子往往完全不能匹配。
  • 曼哈顿距离:
    • 同欧氏距离,公式把平方换成了绝对值,并拿掉了根号。
  • 编辑距离:
    • 将文本A编辑成B需要的最少变动次数,每次只能修改一个字;
    • 适用场景:编辑距离算出来很小的情况,此时文本相似度很高,算法的精确率很高;
    • 不适用场景:召回率低,一些语义相同的句子可能距离非常大导致完全不匹配。
  • 杰卡德相似度:
    • 文本A与文本B中交集的字数除以并集的字数,与文本的位置顺序无关;
    • 适用场景:
      • 对文本顺序不敏感的文本,可以很好兼容;
      • 长文本查重。
    • 不适用场景:
      • 重复字符很多的文本,语义大致一样但结构差距很大,往往会完全匹配,这时是不符合需求的;
      • 对文字顺序很敏感的场景。
  • 余弦相似度:
    • 适用场景:和杰卡德的思路类似,但是余弦考虑了文本频次;
    • 不适用场景:向量之间方向相同,大小不同的情况。
  • JARO相似度:
    • 关键参数,两个字符串相互匹配的字符数量,两个字符串长度,换位数量;
    • 适用场景:
      • 对位置、顺序敏感的文本;
      • 业务场景下需要考虑文本位置偏移、顺序变换的影响,既不希望位置或顺序变了相似度却保持不变,又不希望直接把相似度变为0。
    • 不适用场景:此方法是比较综合的算法。

分类/聚类 —— TF - IDF:

  • 一篇文章中每个词的重要性大小不一,而那些在某类文章中频繁出现,但在整个语料库中较少出现的词,通常被视为更能表征文章类别,重要性更高;
  • 词频:某个词出现的频率越高,重要性越高;
  • 逆向文档频率:包含某词的文档数越多,该词的通用性越高,重要性越低;
  • 词频 X 逆向文档频率:可以理解为权重,高频词如果通用性高,则重要性低,就要降低权重;低频词通用性低,则重要性高,要加权。
应用场景

句法语义分析:

  • 对于给定的句子分词,词性标记。
  • 信息抽取;
  • 文本挖掘;

机器翻译:

  • 统计机器翻译SMT;
  • 神经网络机器翻译NMT;
  • 注意力机制。

信息检索;

语言生成:

  • 天气预报;
  • 问答系统;
  • 对话系统。

语音和文字处理 —— 语音识别 ASR

概念

        将声音转化为文字的过程,相当于人的耳朵。

        可分为以HMM为主的传统识别以及DNN为主的端到端识别。

流程
  • 输入语音;
  • 编码;
  • 解码;
  • 输出。
主要问题

问题:

  • 远场语音识别是ASR目前的主要问题,也是未来的竞争热点,下面对其关键组成进行归纳。

麦克风阵列 MA:

  • 概念:
    • 麦克风阵列即是由一定数目的声学传感器如麦克风组成,用来对声场的空间特性进行采样并处理的系统。在远场语音识别时,需要前后端结合;
    • 一方面,前端使用麦克风阵列硬件通过声源定位以及自适应波束形成语音增强,在前端完成远场拾取声音,并解决噪声、混响、回声等带来的问题;
    • 另一方面,由于远近场的语音信号在声学上有一定的规律差异,所以在后端的语音识别上,需要结合大数据训练,针对远场的声学模型来提高识别率。
  • 分类:
    • 形状:
    • 线性:180°;
    • 环形:360°;
    • 球形:360°方位角,180°仰角。
    • 麦克风个数:
    • 单麦;
    • 双麦;
    • 多麦;
    • 越多精度越高。
  • 解决的问题:
    • 语音增强-抗噪:当语音信号被各种噪音干扰甚至淹没的时候,从含噪声的语音信号中提取出纯净的语音的过程;
    • 声源定位:使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话的人的跟踪以及后续的语音定向拾取;
    • 去混响:声波在室内传播时会有各种反射形成反射声并和直达声形成叠加造成混响,MA能缓解这个问题;
    • 声源信号提取/分离:
      • 提取,从多个声音信号中提取出目标信号;
      • 分离,将多个混合声音全部提取出来。
  • 应用场景:
    • 户外、商场等各种复杂的环境下,会有很强的噪音、混响、人声干扰、回声;
    • 远场,要求麦克风要有很高的灵敏度来获得有效的音频振幅;
    • 近场环境,要求由不能爆音,即振幅超过最大化精度,家庭环境中墙壁反射形成的混响也对语音质量有不可忽视的影响。
  • 难题:
    • 距离太远时如10-20米,录制信号的信噪比低,算法处理难度大;
    • 对于便携设备而言,受尺寸以及功耗的限制,麦克风数量不能太多,阵列尺寸也不能太大,分布式麦克风阵列技术可以解决;
    • 在噪音很大的环境还有很大的提升空间。

语音激活检测VAD:

  • 概念:
    • 语音激活检测即是判断什么时候有语音,什么时候没有语音;
    • 后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。
  • 解决的问题:
    • 判断是否有语音,是否要进入工作状态。
  • 应用场景:
    • 在近场场景下,用户可以用手动操作的交互方式来输入语音,信噪比较高且信号清晰,简单算法也可靠;
    • 在远场场景下,用户一般不能手动操作交互,这个时候噪声大,信噪比低,需要依靠VAD来进行判断。

语音唤醒VT:

  • 概念:
    • 语音唤醒,即是判断是否是激活词来进行激活操作,开始后续语音识别,否则不进行识别。
  • 解决的问题:
    • 判断输入的语音是否是用户的,以及他是否要使用产品。
  • 应用场景:
    • 在近场场景下,用户可以手动操作交互来表示要输入;
    • 在远场场景下,用户一般不能手动交互来表示要输入,而是需要依靠检测到的人声来表示输入。
  • 难点:
    • 语音识别ASR不论远近场,都是在云端进行的,但是VT基本上在终端、本地进行的,要求更高。
    • 唤醒响应时间:
      • 少部分产品目前达到1.5秒响应,大部分超过3秒。
    • 功耗:
      • 进行语音唤醒是很占效率的,所以要求更低的功耗,算法和硬件进行配合。
    • 唤醒效果:
      • 漏报;
      • 误报。
    • 唤醒词:
      • 技术上要求,一般最少3个音节。

全双工:

  • 定义:
    • 在传统的语音唤醒方案中,是一次唤醒后交互,完成交互后再进入待唤醒的状态;
    • 但是在实际人与人交流时,人是可以与多人对话并支持被其他人插入和打断的,以下是应对多种状态的方法:
      • 单工:A和B说话,B只能听A说;
      • 半双工:A和B说话,A说完后B说;
      • 全双工:A和B说话,A和B同时说。
  • 包含特征:
    • 人声检测;
    • 智能断句;
    • 拒绝识别;
    • 回声消除。

纠错:

  • 定义:
    • 语音识别出来后因为同音字和词等各种异常情况,导致识别出来的文字是有偏差的,需要进行纠错。
  • 纠错分类:
    • 用户主动纠错;
    • 根据场景/功能领域不同,AI主动纠错;
    • 本地:语音配合本地信息检索;
    • 本地+云端:语音配合本地/网络信息检索;
    • 云端:语音配合网络信息检索。

语音和文字处理 —— 语音合成 TTS

概念

        将文字转化为语音的过程,相当于人的嘴巴。

实现

        两种实现方法——拼接法,参数法。二者的区别在于后端声学建模方法。

拼接法:

  • 定义:
    • 从事先录制的大量语音中选择所需的基本单位拼接而成,单位可以是音节、音素,为了追求语音的连贯性也常用双音子为单位。
  • 优点:
    • 语音质量高。
  • 缺点:
    • 数据库要求高,企业级商用需要至少5万句数据;
    • 成本高,购买上述数据,需要几百万的成本。

参数法:

  • 定义:
    • 根据统计模型来产生每时每刻的参数包括基频、共振峰频率等,然后把这些参数转化为波形。
  • 模块:
    • 前端:
      • 文本解析,决定每个字的发音是什么,这句话用什么样的语调,节奏来读,哪些地方要强调等;
      • 韵律边界;
      • 重音;
      • 边界调;
      • 情感。
    • 后端:
      • 声码器。
  • 优点:
    • 数据库要求相对较小:
      • 如果只需要出声,500句即可DEMO;
      • 通用TTS需要至少5000句,6小时训练,但是准备工作需要3个月左右;
      • 个性化的TTS,大多数用参数法。
  • 缺点:
    • 质量比拼接法差一些:
      • 受限于发生算法,有损失。
    • 声码器是弱点与难点:
      • 声码器作用是复现声音信号,难在重现声音细节并不让人听出各种杂音、沉闷、机械感。

最新技术-波形统计:

  • 定义:
    • 基于深度学习的语音合成模型,不会对语音信号进行参数化,使用神经网络直接在时域预测合成语音波形的每一个采样点。
  • 优点:
    • 音质比参数合成系统好,略差于拼接合成,但是比拼接合成更稳定。
  • 缺点:
    • 由于需要预测每一个采样点,需要很大的运算量,合成时间慢,无法在实际情况下直接用在产品上。
评价标准

主观测试:

  • MOS:专家级评测;
  • ABX:普通用户评测。

客观测试:

  • 对合成系统的声学参数进行评估,计算其欧式距离;
  • 对合成系统工程上的测试:
    • 实时率;
    • 首包响应时间;
    • 内存占用;
    • CPU占用;
    • 3*24小时CRASH。

八.产品设计

        学习了产品认知,进行了需求分析,也做了技术预研,总算到了设计环节。

        AI产品经理只有理解算法原理,才能更好的帮助研发工程师快速实现目标。

        所以这章以基础的机器学习算法来梳理设计流程。

目的

  • 帮助研发工程师快速实现产目标;
  • 能够用非技术语言,将研发过程的技术原理以及出现的问题及时与领导和客户沟通,获得支持和认可。

数据采集

目的
  • 获取数据供算法进行学习。
获取方式
  • 直接购买行业数据;
  • 自行采集:
    • 自身积累;
    • 爬虫。
  • 第三方合作:
    • 交换;
    • 购买。

数据探查

类型:
  • 是结构化还是非结构化。
大小:
  • 数据的条数多少。
分布:
  • 是否有目标队列。
属性:
  • 是否有数据缺失以及乱码。

场景抽象

目的
  • 业务逻辑与算法进行匹配;
  • 不同的业务有不同的目标以及其优先级,需要产品经理对业务有清晰的认知,才能将业务场景的需求很好的转化为算法逻辑,并以此选择不同种类的算法进一步缩小范围,逐步接近最佳算法。
注意事项
  • 聚焦要解决的核心问题:
    • 需求与算法匹配;
    • 确认问题对精度的最低要求;
    • 确认问题对时效的最低要求。
  • 注意数据量的大小、数据质量和数据本身的特性。
基本机器学习算法

全监督学习(分类、回归):

  • 定义:
    • 学习将输入映射到输出的函数,且训练集中的数据样本都有标签或目标

线性分类器 —— K近邻:

  • 原理:
    • 从训练集中找到一些和新数据距离最近的K个数据,根据这些被找到数据的分类,来决定新数据的分类。
  • 实现:
    • 计算已知类别数据集中的点与当前点之间的距离;
    • 按照距离递增次序排序;
    • 交叉验证法(以K=1为基准),选取与当前点距离最小的K个点,K一般低于训练样本数的平方根;
    • 确定前K个点所在类别的出现频率;
    • 返回前K个点所出现频率最高的类别作为当前点的预测分类。
  • 优点:
    • 简单且高效:
      • 算法简单,无需训练,体现在计算时间开销上几乎为0。
    • 应用范围灵活:
      • 不但可以解决二分类问题,也可以解决多分类问题;
      • 适合对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型)。
    • 鲁棒性不错:
      • 对噪音数据不敏感,具有不错的鲁棒性。
  • 缺点:
    • 计算开销大:
      • 计算量大,内存开销大,执行起来很慢。需要遍历新的数据点与样本集中每个数据的“距离”,以判断是否是前K个邻居;
    • 受样本分布比例制约:
      • 在样本分布比例不均匀的情况下准确率不高。

线性分类器 —— 线性回归:

  • 原理:
    • 拟合出一条穿过连续数据的直线,且映射到直线上的点最接近预测值,得出连续变量之间的关系。
  • 实现:
    • 得出假设函数:
      • 用于拟合的函数,具有泛化能力:
        在这里插入图片描述
    • 得出代价函数:
      • 评估假设函数的拟合质量,任何能够衡量模型预测出来的值 h(θ)与真实值 y 之间的差异的函数都可以叫做代价函数;
      • 一旦有了这个函数,学习算法的目标就是找到代价函数的最小值,得到综合最小化的θ;
      • 均方误差:
        在这里插入图片描述
    • 梯度下降最优化:
      • 代价函数求偏导得到梯度,梯度的反方向决定了参数下降的方向,沿着最陡的方向下坡;
      • 通过不断迭代更新代价函数值,直到全局最优,收敛。
        在这里插入图片描述在这里插入图片描述
  • 优点:
    • 高效:
      • 学习速度快,在数据量大的情况下依然运行速度很快。
    • 建模速度快:
      • 建模速度快,不需要很复杂的计算。
    • 可读性强
      • 可读性强,可以根据系数给出每个变量的理解和解释。
  • 缺点:
    • 对非线性问题拟合能力差;
    • 对噪声数据很敏感。

线性分类器 —— 多项式回归:

  • 原理:
    • 复杂数据往往不能以一条直线来拟合,这时就要在线性回归方程的基础上增加多项式,让拟合函数变为曲线:
      在这里插入图片描述
  • 优点:
    • 灵活度高:
      • 灵活度高,能够模拟非线性可分的数据,线性回归不能做到这一点,它总体上更灵活,可以模拟一些相当复杂的关系。
  • 缺点:
    • 要手动设置变量的指数:
      • 指数调试具有一定难度,需要一些数据的先验知识才能选择最佳指数;
      • 容易过拟合,因为指数调试不当很容易导致这个问题。

线性分类器 —— 逻辑回归:

  • 原理:
    • 判别模型,拟合出曲线将正负样本分割的二分类算法,输出值永远在[0,1]之间。
  • 实现:
    • 得出假设函数:
      • 基于线性方程,以及sigmoid函数,将结果限制在S型曲线中,达到分类目的。
        在这里插入图片描述在这里插入图片描述
    • 划出决策边界:
      • G(θx1+θx2+C);
      • 决策边界,也称为决策面,是用于在N维空间,将不同类别样本分开的平面或曲面,在坐标轴中可视化分类结果;
      • 决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。
    • 得出代价函数:
      在这里插入图片描述
    • 梯度下降最优化:
      在这里插入图片描述
  • 优点:
    • 高效:
      • 计算代价不高,在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。
    • 稳定:
      • 对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。
    • 理解难度低。
  • 缺点:
    • 容易欠拟合,分类精度不高:
      • 模型复杂度不高;
      • 正则化的影响。
    • 数据特征有缺失或者特征空间很大时表现效果并不好。

线性分类器 —— 支持向量机:

  • 原理:
    • 判别模型,通过间隔最大化原则,寻找一个超平面将正负样本分割,最终转化为一个凸二次规划问题来求解支持向量,达到二分类目的的算法。
  • 实现:
    • 计算几何超平面:
      • W*x+b=0,W代表法向量即平面的倾斜程度,b是截距,求得W和b就能得到几何超平面。
    • 计算几何间隔:
      • 通过确认几何间隔,即可得到支持向量到超平面的距离;
      • 一个点距离超平面的远近可以表示分类预测的确信度,越远则表示确信度越高;
      • SVM的目标是寻找一个超平面,使得离超平面较近的异类点之间能有更大的间隔,保证确信度最高,同时不必考虑所有样本点,只需让求得的超平面使得离它近的点间隔最大:
      1. 间隔最大化求得的解,是唯一的,此时的超平面是最优的;
      2. 此时的分隔超平面所产生的分类结果是最鲁棒的,泛化能力最强。
    • 求解最优支持向量:
      • 通过数据点,找到支持向量距离分隔超平面的最大值,可以理解为梯度下降的作用;
      • 基于求最大间隔的思想,得到SVM的基本型;
      • 而这个基本型是一个基本型目标函数是二次的,约束条件是线性的,这是一个凸二次规划问题。可以直接用现成的优化计算包求解,利用“对偶问题”来求解:
      1. 用对偶问题求解更加高效;
      2. 可以自然引入核函数,进而推广到非线性可分问题。
  • 优点:
    • 计算成本低:
      • 因为,最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
    • 模型性能好:
      • 因为,少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本,剔除大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。
  • 缺点:
    • 对多分类问题的处理不灵活:
      • 主要应用于有监督的二分类场景。
    • 对非线性问题没有通用解决方案,必须要谨慎选择核函数:
      • 为什么要引入核函数:
      1. 原始空间线性不可分时,可以将样本映射到高维空间实现可分;
      2. 而引入这样的映射之后,所要求解的对偶问题中,无需求解真正的映射函数,而只需要知道其核函数。
      • SVM核函数之间的区别:
      1. 线性核:参数少,速度快,对于一般的数据分类效果已经很理想了;
      2. RBF核:主要用于线性不可分的情况,参数度,分类结果非常依赖参数;
      3. 如果特征数小,样本数量不多,可以选择RBF核。
    • 对缺失数据敏感:
      • 缺失数据指的是某些特征数据,向量数据不完整;
      • SVM没有处理失值的策略,而SVM希望样本在特征空间中线性可分,所以特征空间的好坏对SVM的性能很重要。

逻辑回归与支持向量机的区别:

  • 相同点:
    • LR和SVM都是判别模型;
    • LR和SVM都是监督学习算法;
    • LR和SVM都是用于分类场景;
    • 如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的;
    • 说明:LR也是可以用核函数的,但LR通常不采用核函数的方法.(计算量太大)。
  • 不同点:
    • LR采用log损失,SVM采用合页(hinge)损失;
    • LR对异常值敏感,SVM对异常值不敏感(抗噪音能力,SVM要强);
    • 计算复杂度不同。对于海量数据,SVM的效率较低,LR效率比较高;
    • 对非线性问题的处理方式不同,LR主要靠特征构造,必须组合交叉特征,特征离散化。SVM也可以这样,还可以通过kernel(因为只有支持向量参与核计算,计算复杂度不高);
    • SVM的损失函数就自带正则,损失函数中的1/2||w||^2项),这就是为什么SVM是结构风险最小化算法的原因,而LR必须另外在代价函数上添加正则项。

贝叶斯 —— 朴素贝叶斯:

  • 原理:
    • 生成模型,它通过学习已知样本,计算出联合概率,再求出条件概率;
    • 朴素,即特征数据之间彼此独立,在求解联合概率P(XY)时,需要求解P(X|Y),朴素贝叶斯做了一个很强的条件独立假设(当Y确定时,X的各个分量取值之间相互独立)。
  • 生成模型与判别模型:
    • 生成模型:
      • 先学习得到联合概率分布P(XY),即特征X和标记Y共同出现的概率,然后求条件概率分布,能够学习到数据生成的机制。
    • 判别模型:
      • 学习得到条件概率分布P(Y|X),即在特征X出现的情况下标记Y出现的概率。
  • 实现:
    • 条件概率公式:
      • 条件概率是指事件A在另外一个事件B已经发生条件下的发生概率:
        在这里插入图片描述在这里插入图片描述在这里插入图片描述
    • 全概率公式:
      • 表示若事件A1、A2、…、An构成一个完备事件组且都有正概率,则对任意一个事件B都有公式成立:
        在这里插入图片描述
    • 朴素贝叶斯公式:
      • 朴素贝叶斯公式即是将条件概率公式代入全概率公式中:
        在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • 优点:
    • 简单且高效:
      • 算法逻辑简单,易于实现,只要使用贝叶斯公式转化即可。
    • 应用范围灵活:
      • 对小规模的数据表现很好,适合多分类场景。
    • 计算开销小:
      • 分类过程中空间开销小,假设特征相互独立,只会涉及到二维存储。
  • 缺点:
    • 先验的局限性:
      • 朴素贝叶斯假设属性之间相互独立,这种假设在实际过程中往往是不成立的。在属性之间相关性越大,分类误差也就越大;
      • 需要计算先验概率,分类决策存在错误率。

决策树 —— 基本决策树:

  • 原理:
    • 决策树是一种描述对实例进行分类的树形结构算法;
    • 构成决策树包括节点和有向边,节点分为根节点、内部节点、叶节点,根节点和内部节点代表特征属性,叶节点代表判断结果,有向边代表分类。
  • 实现:
    • 在特征工程过程构造了一些列特征之后,进行特征重要度评估;
    • 评估方法是根据信息熵来计算信息增益,之后排序信息增益来确定根节点,进而再一步步在分支确定内部节点。
  • 特征排序:
    • 经验熵:

      • 根据分类的数量,分类结果信息的不确定性:
        在这里插入图片描述在这里插入图片描述
    • 条件熵:

      • 已知条件A情况下,条件B的不确定性:
        在这里插入图片描述
    • 信息增益:

      • 信息增益=经验熵-条件熵,特征能为分类带来多少信息量,带来的信息越多,则特征越重要
      • 特征A有n个不同的取值{a1,a2,…,an},根据特征A的取值将D划分为n个子集{D1,D2,…,Dn}:
      1. |Di|为Di的样本个数;
      2. 记子集Di中属于Ck的样本的集合为Dik,即Dik = Di ∩ Ck,|Dik|为Dik的样本个数。
        在这里插入图片描述在这里插入图片描述
    • 排序,确定根节点。

  • 递归:
    • 对子结点递归地调用以上方法构建决策树,直到所有特征的信息增益均很小或没有特征可以选择为止;
    • 对于叶节点,当节点将数据集划分时根据分类情况,如果某一类中样本的结果都一致,则这个节点成为叶节点。如果存在不一致则根据不一致则继续划分数据。
  • 递归终止:
    • 第一个停止条件是所有的类标签完全相同,则直接返回该类标签;
    • 第二个停止条件是使用完了所有特征,仍然不能将数据划分仅包含唯一类别的分组,即决策树构建失败,特征不够用。
  • 剪枝(模型优化):
    • 预剪枝:
      • 预剪枝是指决策树生成的过程中,对每个节点在划分前先进行估计,若当前节点划分不能带来泛化性能提升,则停止划分并将当前节点标记为叶节点。
      • 原则:
      1. 计算每次分裂对测试集的准确度,如果提升则划分;如果降低,或是当小于某个阈值的时候,停止树的生长;
      2. 剪枝通过以下方法判断树的停止生长,停止生长后,按照多数投票的原则判断该结点所属类别:
        1). 当树到达一定深度的时候,停止树的生长;
        2). 当到达当前结点的样本数量小于某个阈值的时候,停止树的生长。
      • 弊端:
      1. 预剪枝因为基于贪心的本质来禁止这些分支展开,有欠拟合的风险
    • 后剪枝:
      • 后剪枝当训练集生成一颗完整的决策树之后,自底向上对非叶节点进行考察,如果将此节点替换为叶节点能提升泛化性能,则进行替换。
      • 原理:
      1. 后剪枝的核心思想是让算法生成一棵完全生长的决策树,然后从最底层向上计算是否剪枝;
      2. 剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样按照多数投票的原则进行类别分类;
      3. 同样地,后剪枝也可以通过在测试集上的准确率进行判断,如果剪枝过后准确率有所提升,则进行剪枝。
      • 方法:
      1. Reduced-Error Pruning(REP,错误率降低剪枝);
      2. Pesimistic-Error Pruning(PEP,悲观错误剪枝);
      3. Cost-Complexity Pruning(CCP,代价复杂度剪枝);
      4. EBP(Error-Based Pruning)(基于错误的剪枝)。
      • 弊端:
      1. 因为后剪枝是决策树完全生成完了再进行检查,并且要自底向上对非叶节点逐一考察,因此训练时间开销比预剪枝大得多
  • 优点:
    • 可视化:
      • 简单易于理解,生成的可视化决策树很直观。
    • 少干预:
      • 基本不需要预处理,不需要提前归一化,处理缺失值;
      • 因为这是一个概率模型,不关心变量的值而是关心其分布和变量之间的条件概率。
    • 高效:
      • 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
  • 缺点:
    • 容易过拟合:
      • 决策树算法非常容易创建复杂树结构而过拟合,导致泛化能力不强;
      • 解决方案:
      1. 剪枝:可以通过设置节点最少样本数量和限制决策树深度来改进。
    • 对数据变动非常敏感:
      • 决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变;
      • 解决方案:
      1. 集成学习。
    • 受数据分布比例影响较大:
      • 如果某些特征的样本比例过大,生成决策树容易偏向于这些特征;
      • 解决方案:
      1. 这个可以通过调节样本权重来改善。

决策树 —— 随机森林:

  • 原理:
    • 基于 Bagging方法,训练多个分类器-决策树,通过依据各个决策树结果进行投票/回归取平均来做最终决定。
  • 实现:
    • Bagging:
      • Bagging是一种并行的方法;
      • 使用相同的算法在不同的训练集上面训练多个基学习器;
      • 使用不同的训练算法训练得到多个基学习器。
    • 构建方法:
      • 随机且有放回地从训练集中的抽取N个训练样本(bootstrap sample),作为某棵树的训练集;
      • 如果每个样本的特征维度为M,指定一个常数m<M,随机有放回地从M个特征中选取m个特征子集;
      • 每次树进行分裂时,从这m个特征中选择最优划分特征,每棵树都尽最大程度的生长,并且没有剪枝过程;
      • 重复上述步骤建立多棵树(基分类器)。
    • 决策方法:
      • 决策树一般采用二叉决策树,最终结果通过所有决策树投票决定,比较不同分类结果的数量多少,多的一方为最终结果。
  • 优点:
    • 准确度高;
    • 不容易过拟合:
      • 在数据集上表现良好,通过对数据集以及特征选取这两个随机性的引入,使得随机森林不容易陷入过拟合;
      • 主要原因是因为模型学习了太多样本中的随机误差;
      • 因为Random Forest随机选择了样本和特征,并且将很多这样的随机树进行了平均,这些随机误差也随之被平均,乃至相互抵消了。
    • 抗噪声能力强:
      • 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力。
  • 缺点:
    • 计算成本高,因为要计算多个树,计算成本较高。
    • 当数据噪声比较大时,会产生过拟合现象;
    • 受数据分布比例影响较大,对有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响。

无监督学习(聚类、推荐、降维):

  • 定义:
    • 算法从没有人为注释的训练数据中抽取信息,学习从分布中采样、去噪、寻找数据分布的流形,或是将数据中的相关样本聚类。

聚类算法 —— K-MEANS:

  • 原理:
    • 基于设定的分类数量K,随机找K个训练数据点;
    • 距离K点最近的数据将被划入此类,并重新计算新的K点位置;
    • 接着再重复根据最近的原则分类,不断迭代直到收敛的算法。
  • 实现:
    • 得出代价函数:
      • 以欧氏距离来衡量相关性,实现范围内点到点的平方和最小:
        在这里插入图片描述
    • 随机初始化:
      • 随机找K个训练实例点,然后令K个聚类中心分别等于这K个训练实例;
      • 我们通常需要多次(50到1000次)运行K均值算法,每一次都重新进行初始化,最后再比较多次运行K-均值的结果,选择代价函数最小的结果。
    • 基于业务需求,选择聚类数K。
  • 优点:
    • 简单高效:
      • 原理比较简单,实现也很容易,收敛速度快;
      • 算法的可解释度比较强。
  • 缺点:
    • 参数难把握:
      • K值的选取不好把握,实际的应用场景中很难预判;
      • 需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。
    • 对噪音敏感:
      • 对噪音敏感,因为任何一个点都会被划分。
    • 性能欠缺:
      • 采用迭代方法,得到的结果只是局部最优;
      • 对于不是凸的数据集比较难收敛。

聚类算法 —— DBSCAN:

  • 原理:
    • 基于空间密度的算法,随机找到一个数据点,计算其半径范围R内其它点的数量是否满足最少数据P要求;
    • 如果满足则设该点为核心点并划分簇,接着遍历簇中所有点来看其半径范围R内的点是否满足P,依此扩大簇,形成密度相连的最大合集。
  • 实现:
    • 确认半径R:
      • 确定R的一种方法是计算任意点到所有点的距离,并进行排序;
      • 一旦发现有相邻一组数据差异巨大,那么前一个数据可选择作为基础数进行测试。
    • 确认最少数据P:
      • 一般选择较少的数进行测试,并调试。
    • 计算核心点:
      • 在该点的半径R内的点数大于P,则认为该点是核心点。
    • 计算边界点:
      • 在核心点的半径范围R之内,但是这个点的半径范围R内的点数小于P。
    • 计算噪音点:
      • 既不是核心点,也不是边界点的点,将要被删除。
  • 优点:
    • 少干预:
      • DBSCAN无需提前设置K值。
    • 抗噪强:
      • DBSCAN对噪音数据可以实现过滤。
    • 特殊类型数据优势:
      • DBSCAN对低维的、球状的数据簇具有更好的处理效果。
  • 缺点:
    • 最终聚类数量不可控;
    • 低效:
      • 算法复杂度高,对计算资源消耗大。
    • 数据类型局限:
      • 处理高维数据性能较差,效果一般,因为高维数据的密度相连性不高,更适合基于距离的聚类算法;
      • 处理数据分离不明显的数据集时,聚类效果会受到较大影响。

推荐算法 —— 基于热度:

  • 概述:
    • 非机器学习方法,但是在产品生初期提供了平滑的体验;
    • 产品初期,用户量数据量小,无法做到基于兴趣和习惯为用户做个性化推荐,所以一般会采用热度算法,覆盖大部分内容需求,且启动成本很低
  • 新闻热度分 = 初始热度分 + 用户交互产生的热度分 – 随时间衰减的热度分:
    • 初始热度不应该一致,解决办法就是把初始热度设置为变量;
    • 用户行为分规则不是固定不变的,先要明确用户的的哪些行为会提高新闻的热度值,解决办法是对这些行为赋予一定的得分规则;
    • 热度随时间的衰减不是线性的,如果是线性衰减,当某些新闻突然有大量用户阅读,获得很高的热度分时,可能会持续排名靠前很久,让用户觉得内容更新过慢。

推荐算法 —— 基于内容:

  • 概述:
    • 产品具备了一定的量级时,如果一直采用热度推荐,长尾和个性化的内容就鲜有人看,这时要考虑让用户不但能看到大家喜欢的内容,也能看到自己喜欢的内容
  • 原理:
    • 推荐给用户喜欢过的、关注过的Item在内容上类似的Items
    • 比如用户看了哈利波特I,基于内容的推荐算法发现哈利波特II-VI与用户以前观看的内容(共有很多关键词)有很大关联性,接着把后者推荐给用户。
  • 优点:
    • 避免Item的冷启动问题:
      • 冷启动:如果一个Item从没有被关注过,其他推荐算法则很少会去推荐,但是基于内容的推荐算法可以分析Item之间的关系,实现推荐。
    • 对用户数量没有要求;
    • 用户独立性;
    • 解释性较好。
  • 缺点:
    • 推荐的Item可能会重复;
    • 无法挖掘潜在兴趣,确定性太强,因为均来自于历史,也就是由于这一点,基于内容的推荐一般与其他推荐算法同时存在;
    • 新用户无法推荐,由于没有浏览历史。

推荐算法 —— 协同过滤:

  • 概述:
    • 解决了内容推荐的问题,更能挖掘用户的潜在兴趣。
  • 原理:
    • 借鉴和你相关人群的观点来进行推荐;
    • 对于每个用户,采集对每个内容的消费行为,量化构建用户-内容行为矩阵,通过该矩阵的分析处理计算内容-内容的两两相似度,将高相似度的内容进行分发。
  • 实现:
    • 用户行为采集:
      • 正反馈行为:
      1. 显性:评价、分享、点赞、收藏、下载等主动行为;
      2. 隐性:页面停留、播放视频等自然操作。
      • 负反馈行为:差评、不喜欢等。
    • 用户特征划分;
    • 用户-内容行为的矩阵构建:
      • 划定采集行为的窗口期:
      1. 从现在开始我要回溯多久的一个数据,确定窗口期的原因在于我们的内容会发生变化,并且用户的兴趣也可能发生变化;
      2. 因此,具体的窗口期需要根据各个业务领域而定,比如新闻类,窗口期不宜设置过长。
      • 定义正负反馈行为的权重:
      1. 一般来说,显性的正反馈的权重大于隐形的正反馈;
      2. 比如正向的评价,肯定会比页面停留时间的权重要高,而负反馈的权重需要根据用户行为的深浅进行判断。
        c)数据的预处理(降噪和归一化)。
    • 矩阵分析计算相似度:
      • 基于物品,将用户对所有的物品的偏好,作为一个向量计算用户之间的相似度(从物品角度找相似度高的物品进行推荐);
      • 基于用户,将所有用户对某个物品的偏好,作为向量来计算物品之间的相似度(从人的角度找哪些人有相同偏好进行推荐)。
  • 优点:
    • 能制造惊喜感:
      • 算法常常能起到意想不到的推荐效果——推荐出来一些结果让用户惊喜
      • 进行有效的长尾Item。
    • 学习要求不高:
      • 只依赖用户行为,不需要对内容进行深入了解,使用范围广;
      • 不依赖对于内容的理解,甚至可夸异构内容实现推荐。
  • 缺点:
    • 冷启动门槛高:
      • 一开始需要大量的<User,Item>行为数据, 即需要大量冷启动数据,启动门槛高。
    • 数据依赖:
      • 学习量不足时推荐效果差。
    • 可解释性差:
      • 很难给出合理的推荐解释。
    • 类似、重复信息问题不可避免:
      • 业务关联导致的相关性:在内容的生命周期内,由于业务关联导致用户既看了这个,又看了那个;
      • 头部内容的问题:非常热门的内容容易覆盖用户行为,比如最近比较火的某个视频,如果仅仅基于行为来说的话,很多用户都会对其产生正向的行为,这样计算出来的结果就会导致接下来的很多推荐内容有相似性,因此还需要进行降权处理。
    • 容易受脏数据污染。

异常检测 —— 基于密度:

  • 原理:
    • 寻找一个最佳阈值,对数据中存在的不正常或非典型个体进行检测和标志;
    • 和监督学习的区别在于,数据倾斜,异常数据在总数据中占比很少,监督学习很难进行分类。
  • 算法分类:
    • 一分类支持向量机:数据特征较多的场景;
    • 基于PCA的异常检测:训练时间短的场景。
  • 实现:
    • 根据训练集数据,估计出特征的均值和方差,然后构建出概率密度估计函数P(x);
    • 对交叉验证集,尝试不同的ϵ值作为阈值,并预测数据是否异常,接着根据F1值(越高越好)选择最佳的阈值ϵ;
    • 选出最佳的ϵ后,针对测试集进行预测,将小于阈值的划为异常点;
    • 特征选择:
      • 特征数据满足高斯分布则直接得出P(x),如果不满足则对数据进行处理,取其对数或是幂次,让其满足高斯分布;
      • 使用误差分析法调整、增减特征。
  • 优点:
    • 可以找出分布不均匀的数据中局部异常的数据;
    • 可以给出数据的异常得分,得分越高越可能异常,不是二分类。
  • 缺点:
    • 干预多:
      • 人工调参,需要度量密度,需要设定阈值。
    • 不适合高维数据:
      • 只能找到异常点,无法找出异常簇。

半监督学习(打标数据难获得的分类):

  • 定义:
    • 降低标签获取的成本,在训练数据中一部分有标签而另一部分没有标签。

标签传播:

  • 原理:
    • 在一个庞大的数据集合中,已知一部分标记数据,然后通过数据间彼此关系,在关系网中传播,最后得到全部数据的标记结果。
  • 实现:
    • 传播依据:
      • 根据距离的远近来判断;
      • 任一目标将传递属性给下一目标,属性传递过程会衰减,最终下一目标将根据被传递到其身上的属性的权重来判断其到底属于哪个属性。
    • 计算边权重:
      • 两点距离越近,即传播距离越短,这两点的边权重越大;
      • 数据集合每个点肯定是受到离其最近的点的影响较大。
    • 计算转移概率:
      • 得到边权重之后,计算A到B点的传播概率P,P表示的是B受到A影响的概率;
      • 一个点只会有一个目标结果,如果A和C同时传递结果给B,那么根据A和C到B的边权重判断谁占优势。
    • 循环遍历:
      • 对整个关系图结构数据遍历一遍,直到标签传播到整个数据集并收敛,就可以得到标签传播的最终结果。
  • 优点:
    • 模型效率较高:
      • 实现简单,复杂度低,比较高效。
    • 执行时间很短。
  • 缺点:
    • 性能不稳定:
      • 每次迭代结果不稳定,导致准确率并不高。

强化学习(流程中需要不断推理):

  • 定义:
    • 强化学习是一种让计算机通过不断尝试,从错误(反馈)中学习如何在特定的情境下,选择可以得到最大的回报的行动,最后找到规律、达到目标的方法。

隐马尔可夫:

  • 原理:
    • 隐马尔可夫是一个关于时序的概率模型,它描述了一个由隐藏的马尔可夫链生成状态序列,再由状态序列生成观测序列的过程;
    • 其中,状态之间的转换以及观测序列和状态序列之间都存在一定的概率关系,隐马尔可夫主要用来对上述过程进行建模;
    • 模型包含三大要素,之后利用三大要素解决三大问题。
  • 实现:
    • 概率计算问题,主要利用前向算法或后向算法;
    • 学习问题,将前向算法和后向算法结合,就可以解决只有观测序列求模型参数的问题;
    • 状态序列预测问题,主要使用维特比算法,此算法使用动态规划的思想,使得最终计算出来的状态序列能达到整体最优。
  • 优点:
    • 能够捕捉数据中的“顺序”特性。
  • 缺点:
    • 输出独立假设,导致其不能考虑上下文的特征,限制了特征的选择;
    • 目标函数和预测目标函数不匹配,隐马尔可夫求得的是联合概率,而需要的是条件概率。

深度学习:

  • 定义:
    • 由多层参数化可微的非线性模块搭建起来的模型。

前馈 —— 神经网络:

  • 原理:
    • 由一或两层参数化可微的非线性模块搭建起来的模型;
    • 神经网络的本质就是一个的复合函数,通过隐藏层的激活函数来拟合特征与目标之间的真实函数关系。
  • 实现:
    • 输入层神经元数量确定:输入向量维数=输入层神经元数;
    • 确定隐层数量以及其中包含神经元数量;
    • 输出层神经元数量确定:分类数=输出层神经元数;
    • 随机初始化边权重: 如果全部置0,那么隐层就没有意义,因为每个节点的输出结果都是一样的;
    • 向前传播计算,得出假设函数H(θ):
      • 前一层,计算后一层的矩阵运算,权重矩阵1,加权超过神经元阈值将输出激活函数Z1结果;
        在这里插入图片描述
        在这里插入图片描述
      • 计算最终输出z的方式是利用了中间层的a1(2),a2(2)和第二个权值矩阵计算得到的,权重矩阵2;
        在这里插入图片描述
        在这里插入图片描述在这里插入图片描述
    • 计算假设函数的代价函数J(θ);
    • 反向传播:
      • 反向的原因:
      1. 计算一个节点的误差项,需要先计算每个与其相连的下一层节点的误差项;
      2. 这就要求误差项的计算顺序必须是从输出层开始,然后反向依次计算每个隐藏层的误差项,直到与输入层相连的那个隐藏层;
      3. 这就是反向传播算法的名字的含义。当所有节点的误差项计算完毕后,我们就可以根据式5来更新所有的权重:
        在这里插入图片描述
      • 反向传播算法是利用了神经网络的结构进行的计算。不一次计算所有参数的梯度,而是从后往前;
      • 首先计算输出层的梯度,然后是第二个参数矩阵的梯度,接着是中间层的梯度,再然后是第一个参数矩阵的梯度,最后是输入层的梯度;
      • 计算结束以后,所要的两个参数矩阵的梯度就都有了;
        在这里插入图片描述
    • 使用梯度检查确认反向传播正常执行,之后关闭梯度检查;
    • 使用梯度下降法迭代更新连接权、阈值,来最小化J(θ),得出最优参数;
    • 重复,直到例如训练误差达到设定的值。
  • 优点:
    • 无需特征工程,自主学习特征;
    • 运行时间非常快;
    • 性能强大:
      • 性能非常强大,处理复杂问题高效,能充分逼近复杂的非线性关系,具备联想记忆的功能。
    • 对噪声神经有较强的鲁棒性和容错能力。
  • 缺点:
    • 黑盒特性:
      • 黑盒理解成本高,得出结果后,依据不能很好解释。
    • 容易过拟合:
      • 容易过拟合,因为神经网络的层数增加了,参数也增加了,导致拟合能力增强,方差主导。
    • 数据量要求大:
      • 需要海量的数据,百万级以上。
    • 计算成本高:
      • 每一个神经元都要进行高维度的矩阵运算,而随着层数增多,反向传播迭代次数增多,矩阵计算的规模将非常巨大。
    • 训练时间长:
      • 由于计算成本间接导致,主要限制因素还是当前的算力局限。

浅层学习和深度学习:

  • 为什么深度学习火:
    • 因为之前的浅层学习,大部分是基于统计学的推理,是基于先验假设的,而深度学习不做任何假设,直接从数据中学习经验,当数据量足够大的时候效果能无限逼近真实情况。
  • 为什么深度学习得到发展:
    • 数据:
      • 浅层的机器学习算法在数据量面前,会触及一个天花板;
      • 一旦到达极限,传统机器学习算法将无法跟上数据增长的步伐,性能则停滞不前,而深度学习的上限远高于浅层机器学习。
    • 算力:
      • GPU等硬件发展、云计算对计算资源的整合;
      • 深度学习中涉及很多的矩阵运算,因此很多深度学习都要求有GPU参与运算,因为GPU就是专门为矩阵运算而设计的。
    • 算法:
      • 深度学习算法运行得更快;
      • 深度学习算法精度更高。
  • 深度学习和机器学习的区别:
    • 概述:
      • 最本质的区别是,深度学习用了很多层隐层;
      • 这个区别体现在,深度学习更能解决复杂的非线性问题,同时能够自主选择、提取特征,但是需要海量的数据以及强大的硬件支撑。
    • 数据:
      • 数据依赖:
      1. 深度学习依赖大数据,不然过拟合不可避免;
      2. 普通机器学习在大数据下容易达到瓶颈,而深度学习不会。
      • 特征工程:
      1. 深度学习无需特征工程,采用自动编码的方式,逐层抽象特征,对复杂的特征抽取场景有较好的效果;
      • 大量超参数:
      1. 深度学习伴随着大量的超参数需要调试,调参方法不同即使相同的模型也无法达到一样的效果。
    • 算力:
      • 硬件依赖:
      1. 深度学习需要高性能GPU,因为其涉及大量重复可并行计算、浮点计算;
      2. 使用CPU做同样的计算速度会非常慢。
    • 算法:
      • 解决问题的方式:
      1. 深度学习处理复杂问题性能更强,精度更高。
      • 运行时间:
      1. 深度学习训练好后实时反馈。
      • 可理解性:
      1. 深度学习结果依据不可解释。
    • 场景:
      • 浅层学习是机器学习应用主流,多在解决一些日志类的数据分析,特别是结构化数值类数据的一些预测场景;
      • 深度学习主要解决复杂特征场景,如图像识别、语音识别等。

前馈 —— 普通深度神经网络:

  • 原理:
    • 由多层参数化可微的非线性模块搭建起来的模型,而它本身能够用BP算法去训练;
    • 原理同NN,但是隐层数量大大增多,在语音识别领域4层就比较深了,但是在计算机视觉领域,20层以上也比较常见:
      • 拟合能力:
      1. 隐层数量的增多,相应的神经元连接权、阈值等参数就会增多,这样模型的复杂度就增加了;
      2. 增加隐层不仅增加了拥有激活函数的神经元数目,还增加了激活函数的嵌套的层数,进一步增加复杂度;
      3. 拟合能力可以通过增加算法的复杂度而提升,深层神经网络即是这个方式来增加复杂度,但是计算量非常大。
      • 算法性能:
        i.随着拟合能力的提升,过拟合会容易产生,而对应的解决方案之一就是海量数据。
  • 和神经网络的具体区别:
    • 单隐层,多神经元,可以拟合任何函数;
    • 多隐层,少神经元,也可以拟合任何函数,但是在效率上更加高,更节约资源。
  • 为什么神经网络层数越多越好:
    • 随着层数增加,其非线性分界拟合能力不断增强,无限逼近真实结果;
    • 非线性可由假设函数组成部分之间的相互作用表示出来,而神经网络就是在模拟这些组成部分的相互作用。
  • 优点:
    • 比神经网络更的性能更强大;
    • 深度学习在数据和算力上的限制得到了突破,泛化误差将无限趋近于0。
  • 缺点:
    • 梯度消失:
      • 不能用BP训练,因为误差在多隐层内逆传播时,往往会发散从而导致不能收敛;
    • 打标数据依赖:
      • 非常依赖打标数据,但是目前数据采集率很低,大部分数据没有被采集,同时采集到的数据存在很多噪声需要进行打标和处理。

前馈 —— 卷积神经网络:

  • 原理:
    • 一种空间概念上的深度学习结构,主要通过卷积来解决空间上的一些复杂特征问题。
  • 实现:
    • 输入层:
      • 与传统机器学习一样,需要进行预处理,如归一化、PCA。
    • 卷积:
      • 卷积:输入*卷积核=输出:
      1. 卷积核就是一个模板,一个滤波器,筛选出高频信号,达到特征筛选的目的;
      2. 卷积核处理图像之后,会将对应特征凸显。
      • 整个CNN学习过程就是机器在确定卷积核的具体数值,使得信号能够更好的分类;
      • 卷积层与输入层仅仅是局部连接;
      • 压缩之后用高维度矩阵X低维度矩阵,输出卷积核值。
    • 激励:
      • 实际上是对卷积层的输出结果做一次非线性映射;
      • 激励函数Relu函数:
        在这里插入图片描述
      • Relu函数特点:
      1. 速度快:
        1). 和sigmoid函数需要计算指数和倒数相比,relu函数其实就是一个max(0,x),计算代价小很多。
      2. 减轻梯度消失问题:
        1). X是sigmoid函数的导数;
        2). 在使用反向传播算法进行梯度计算时,每经过一层sigmoid神经元,梯度就要乘上一个X;
        3). X函数最大值是1/4;
        4). 因此,乘一个X会导致梯度越来越小,这对于深层网络的训练是个很大的问题;
        5). 而relu函数的导数是1,不会导致梯度变小;
        6). 当然,激活函数仅仅是导致梯度减小的一个因素,但无论如何在这方面relu的表现强于sigmoid;
        7). 使用relu激活函数可以让你训练更深的网络。
      3. 稀疏性:
        1). 通过对大脑的研究发现,大脑在工作的时候只有大约5%的神经元是激活的;
        2). 而采用sigmoid激活函数的人工神经网络,其激活率大约是50%;
        3). 有论文声称人工神经网络在15%-30%的激活率时是比较理想的;
        4). 因为relu函数在输入小于0时是完全不激活的,因此可以获得一个更低的激活率。
    • 下采样/池化:
      • 对图像进行自由抽样,减少数据的处理量过滤细节,并且使得有效的信息尽可能保留,减小过拟合;
      • 池化的方法很多,一般采用最大池化:
        • 原理是将矩阵分区,并在每个小区选出最大值,以几个小区的最大值组成新的矩阵并输出;
        • 这样保留了最主要特征而且减小计算复杂度。
      • 除此之外还有平均池化可以考虑。
    • 输出层/全连接:
      • 通过卷积核下采样生产了许多特征图谱,是输入图片的参数以及位置信息;
      • 这些信息都属于细节,而全连接/高斯连接做一个分类结果判断,判断结果是否为X。
    • 反向传播法更新权重。
  • 全连接处理图像的问题:
    • 参数数量限制:
      • 全连接不能适应参数数量太多,图像只扩大一点,参数数量就会多很多,因此它的扩展性很差,并且容易过拟合
    • 没有利用像素之间的位置信息:
      • 对于图像识别任务来说,每个像素和其周围像素的联系是比较紧密的,和离得很远的像素的联系可能就很小;
      • 如果一个神经元和上一层所有神经元相连,那么就相当于对于一个像素来说,把图像的所有像素都等同看待,这不符合前面的假设;
      • 当我们完成每个连接权重的学习之后,最终可能会发现,有大量的权重,它们的值都是很小的(也就是这些连接其实无关紧要)。努力学习大量并不重要的权重,这样的学习必将是非常低效的。
    • 网络层数限制:
      • 网络层数越多其表达能力越强,但是通过梯度下降方法训练深度全连接神经网络很困难,因为全连接神经网络的梯度很难传递超过3层
      • 因此,我们不可能得到一个很深的全连接神经网络,也就限制了它的能力。
  • CNN的解决方法:
    • 概述:
      • 都是为了去粗取精,精简参数;
      • 对于图像识别任务来说,卷积神经网络通过尽可能保留重要的参数,去掉大量不重要的参数,提高学习效率并降低过拟合的风险
    • 局部连接:
      • 每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连。这样就减少了很多参数。
    • 权值共享:
      • 一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数。
    • 下采样:
      • 可以使用Pooling来减少每层的样本数,过滤细节,进一步减少参数数量,同时还可以提升模型的鲁棒性。
  • 优点:
    • 共享卷积核,对高维数据处理无压力;
    • 可以自动进行特征提取,卷积层可以提取特征,卷积层中的卷积核(滤波器);真正发挥作用,通过卷积提取需要的特征。
  • 缺点:
    • 信息丢失,池化层会丢失大量有价值信息,忽略局部与整体之间关联性;
    • 黑盒,由于特征提取的封装,为网络性能的改进罩了一层黑盒;
    • 局部最优,用梯度下降算法很容易使训练结果收敛于局部最小值而非全局最小值;
    • BP低效,当网络层次太深时,采用BP传播修改参数会使靠近输入层的参数改动较慢。

反馈 —— 循环神经网络:

  • 原理:
    • 一种时间概念上的深度学习结构,环状的深度神经网络,隐藏层的输出可以继续作为其输入不断更新
    • 对于文本分析来说,下一个时间产生的文本会受到前一刻文本的影响,在时间维度上彼此关联,而CNN对输入格式有固定要求就不能满足学习需求了,而RNN没有这方面限制。
  • 优点:
    • 可以处理任意输入/输出长度;
    • 可以使用其内部存储器来处理任意输入序列。
  • 缺点:
    • 有梯度消失时的问题,当序列很长的时候问题尤其严重;
    • 训练非常困难,因为计算能力受到内存和带宽等的约束。

反馈 —— 长短时记忆网络:

  • 原理:
    • 是RNN模型的一种特殊结构类型,其增加了输入门、输出门、遗忘门三个控制单元(“cell”);
    • 随着信息的进入该模型,LSTM中的cell会对该信息进行判断,符合规则的信息会被留下,不符合的信息会被遗忘;
    • 以此原理,可以解决神经网络中长序列依赖问题。
  • 优点:
    • 非常适合用于处理与时间序列高度相关的问题;
    • 解决了梯度反传过程由于逐步缩减而产生的Vanishing Gradient问题。
  • 缺点:
    • RNN的梯度问题在LSTM及其变种里面得到了一定程度的解决,但还是不够;
    • 计算费时。每一个LSTM的cell里面都意味着有4个全连接层(MLP),如果LSTM的时间跨度很大,并且网络又很深,这个计算量会很大,很耗时。

数据预处理

目的

        对整个数据集进行调整,减少噪音数据对训练数据集的影响,以便提高最终算法的训练效果。

数据优化方法

采样:

  • 随机采样:
    • 有放回;
    • 无放回。
  • 系统采样:
    • 等距采样,总体单位按某一个顺序分为N个部分,从第一个部分开始,依次对每个部分的K号进行抽取,组成样本;
    • 无放回。
  • 分层采样:
    • 将数据分为若干类别,再在类别中随机抽取一定数量的观察样本。

去除噪声:

  • 去除数据集中有干扰的数据。
  • 正态分布3σ原则:把3倍方差之外的数据设想成噪声进行去除。

特征缩放/归一化:

  • 目的:
    • 使得训练函数的收敛速度更快,循环次数更少,去除量纲给计算带来的影响:
      • 因为如果特征参数的区间差距很大,那么在代价函数的坐标轴中绘制的等高线就是比较扁高的;
      • 这个情况下,梯度下降时容易走之字形,导致迭代次数很多甚至无法收敛;
      • 缩放不必追求精确,仅仅是一个比较粗糙的值,将数据范围约束在正负1或0.5之间,比如梯度下降法在数据范围大致相同的情况下收敛的速度将提升;
      • 通常使用:(输入数据-数据平均值)/(数据最大值-最小值|或者是标准差)。
    • 提高模型的精度:
      • 一些分类器是基于欧氏距离计算的,如果特征的区间范围大,那么会导致距离的计算取决于这个特征,从而导致偏差。
  • 应用:
    • 非概率模型:
      • 这些模型因为会受到量纲的影响,所以要进行归一化。
    • 概率模型:
      • 这些模型不受量纲影响,他们不关心变量的值,而是关心变量的分布和变量之间的条件概率,所以不需要归一化。

数据过滤:

  • 先简单判断,将无意义的字段剔除。
模型优化方法

梯度下降法(迭代求解):

  • 梯度:
    • 所谓梯度,是J(θ)代价函数的偏导数;
    • 所谓学习速率α,是梯度下降的步长:
      • 步长太小,收敛速度慢;
      • 步长太大,可能会越过最小值点,导致无法收敛。
    • 所谓梯度下降,是沿着梯度的反向更新θ值,让每次迭代θ都更小,即沿着最陡的方向下坡,直到J(θ)收敛到最小值:
      • 负梯度是函数值下降最快的方向
  • BGM:
    • 原理:
      • 通过同步更新的方式,对全局数据进行遍历,让代价函数的值无限逼近最小值,尽可能收敛的一种手段。
    • 优点:
      • 无论特征量多少都能正常运作。
    • 缺点:
      • 缺点是每次迭代θ,都需要遍历所有数据,计算量过大;
      • 需要手动调试α,并多次尝试α。
  • SGM:
    • 原理:
      • 打乱所有数据集排序,并从一个随机点开始梯度下降,每次迭代只针对一个数据集进行拟合的方式来趋近最小代价函数值。
    • 优点:
      • 每次迭代只需要针对一个数据集进行拟合,速度快;
      • 能够跳出局部最小,因为引入随机因素,即便陷入局部最小,它计算的梯度仍然不可能为0,这样就有机会跳出局部最小。
    • 缺点:
      • 精度不是很高,往往不能趋近全局最小,而是在其附近徘徊。
  • MBGM:
    • 原理:
      • 介于BGM和SGM之间,确定一个步长B(2-100)来取B个数据集进行批量迭代,每次批量处理完之后就更新一次θ。
    • 优点:
      • 比SGM具有更高的精度,因为可以对数据集进行向量化批量处理,此时数据的维数不高不低。
    • 缺点:
      • 需要调试步长值。
  • 确认收敛:
    • 函数收敛:
      • 极限的概念,当参数无限趋近一个值的时候将有一个近似的有限值,这个值就是要求的。
    • BGM:
      • 所有迭代完成后,绘制代价函数曲线。
    • SGM:
      • 每1000次迭代,绘制平均代价函数曲线;
      • 基于曲线来确认是否收敛,以及是否需要调整学习速率α。

正规方程式(一次求解):

  • 原理:
    • 通过对参数直接求解;
    • 在特征量小于10000,可以考虑使用正规方程求解:
      在这里插入图片描述
  • 优点:
    • 无须选择α,对于梯度算法来说,性能的好坏还与学习率的设置有关,学习率设置不合适,时间消耗较长,甚至得不到最优解,而正规方程的方法不需要学习率的设置
    • 无须迭代,当特征点的数量不是很大时,使用正规方程更加简答,不需要像梯度下降算法一样迭代实现,一次计算就可以得出最优参数
  • 缺点:
    • 特征量非常多的时候(大于1万),求解过程中矩阵的维度会不断增长,导致计算量巨大,效率低下;
    • 对Xt X矩阵有要求,要求其可逆;
    • 不能对非线性的代价函数求解,比起梯度下降更具局限性。

偏差与方差:

  • 偏差:

    • 偏差指的是所有模型的输出的平均值和真实模型输出之间的差别;
    • 偏差量度了学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合能力。
  • 方差:

    • 方差指的是所有模型的输出结果彼此之间的分散程度;
    • 方差量度了同样大小的训练集的变动导致的学习性能的变化,刻画了数据扰动造成的影响。
  • 噪声:

    • 噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,刻画了学习问题本身的难度。
  • 泛化误差

    • 偏差+方差+噪声;
    • 模型在新样本上的误差。
  • 高偏差低方差——欠拟合:

    • 原理:
      • 模型对训练集数据学习不足,导致拟合曲线忽略了很多关键特征;
      • 在训练不足的情况下,拟合能力弱以及扰动不足以影响学习器,所以是偏差主导了泛化误差。
    • 避免:
      • 特征数量:
      1. 适当增加必要的特征数量。
      • 模型复杂度:
      1. 增加多项式使假设函数复杂度提升;
      2. 在代价函数中加入正则化公式,并使得参数足够小。
  • 低偏差高方差——过拟合:

    • 原理:
      • 模型过度学习了训练集数据,导致一些噪声数据也作为了决策依据;
      • 随着训练程度加深,拟合能力逐渐增强,而训练数据发生的扰动也开始被学习到了,方差逐渐主导了泛化误差。
    • 避免:
      • 数据量:
      1. 数据采样一定要尽可能覆盖全部数据种类,并很好地清洗,避免噪音过多导致提前过拟合;
      2. 增加数据集数量。
      • 特征数量:
      1. 建模时尽量从相对简单的模型开始,过多特征和过度复杂容易导致过拟合
      • 模型复杂度:
      1. 在代价函数中加入正则化公式,并使得参数足够大。
  • 学习曲线:
    在这里插入图片描述

    • 原理:
      • 结合了训练集的代价函数曲线,与交叉训练集的代价函数曲线,一同评估误差。
    • 如何评价:
      • 欠拟合:两函数曲线随着数据量增大,迅速接近相等,同时曲线趋向平缓;
      • 过拟合:两函数曲线随着数据量增大,缓慢趋近,同时曲向保持相交的走势。

正则化:

  • 原理:
    • 在代价函数后加入的惩罚公式,目的是为了降低各项参数的权重从而降低模型的复杂度,规避过拟合
    • 模型越复杂的目的是为了形成更好的曲线或平面去进行拟合,这个时候以偏差主导的情况会渐渐转变为方差主导,因为拟合得越深入越来越多点将被考虑,拟合函数输出的曲线将在剧本有很强的波动。
  • L1正则化:
    • 正则化项是向量中各个元素的绝对值之和。
  • L2正则化
    • 正则化项是向量中各个元素求平方和之后开方。
  • 区别:
    • 使用L1范数,可以使得参数稀疏化:
      • L1会趋向于产生少量的特征,而其他的特征都是0:
      1. 如果特征数量少那么拟合能力就会下降。
      • 因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0 ,产生稀疏权重矩阵;
      • 参数的稀疏,在一定程度上实现了特征的选择:
      1. 一般而言,大部分特征对模型是没有贡献的;
      2. 这些没有用的特征虽然可以减少训练集上的误差,但是对测试集的样本,反而会产生干扰;
      3. 稀疏参数的引入,可以将那些无用的特征的权重置为0。
    • 使用L2范数,倾向于使参数稠密地接近于0,避免过拟合:
      • L2会选择更多的特征,这些特征都会接近于0;
      • 即L2减少的是特征参数的权重,而不是像L1一样减少特征;
      • 最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0。当最小化||w||时,就会使每一项趋近于0。

特征工程

目的

        目的是提升训练模型的精度。

        特征工程是浅层模型设计时最关键的点,因为算法的选择是有限的,而特征的选择是多样化的,并且这个选择对最终结果的影响也是最关键的。

意义

        产品经理需要深入理解行业、理解业务,才能将数据和行业、业务结合,设计出最合适的模型。

特征抽象

目的:

  • 将数据源抽象成算法可以理解的数据;
  • 只有真正理解业务,把数据和业务结合起来才能挖掘出数据的价值,而这个正是产品经理需要协助工程师做的关键的事情。

数据结构:

  • 结构化数据,也是机器学习识别的数据类型;
  • 半结构化数据;
  • 非结构化数据,如图片语音等,目前做法是转化为二进制格式,然后通过算法挖掘其中信息。

时间戳:

  • 取一个时间为基准,将所有时间转化为与那个时间的差值,一个具体数字。

二值类:

  • 抽象为0/1。

多值有序类:

  • 抽象为0/1/2…

多值无序类:

  • 信息阉割:
    • 根据预测目标,将目标设为1,其他无论是什么种类都设0。
  • ONE-HOT编码:
    • 将文本编码[0\1\2],然后再组合[0,0,1,1,0,0,1]。
特征衍生

目的:

  • 将现有特征进行组合,生成新的更具有意义、价值的特征,提升模型的质量;
  • 是对数据和业务结合的进一层理解,实际的行业经验。

衍生思路 —— 拆分关系:

  • 购物二分类:
    • 买;
    • 不买。
  • 购物行为对象:
    • 购物者;
    • 商品;
    • 购物者和商品的关系。
  • 衍生出购物者和商品相关特征,如购买频率、复购率。
特征降维

目的:

  • 挖掘出关键的字段并去除噪声,减少了输入矩阵的维度,提升模型的学习效率并减少计算量;
  • 保持特征间的独立性。

特征选择 —— 特征重要性评估法:

  • 目的:
    • 了解特征列对目标列的影响程度,确定其合适的权重;
    • 消除不确定性,熵(宏观态下的不确定性)。

信息熵判断(模型还未训练,未雨绸缪):

  • 信息熵:
    • 考虑这个信息源所有可能发生情况的平均不确定性;
    • 一个事物的不确定性越大,其未来发展的可能性就越多,信息量就越大。
  • 信息增益:
    • 特征能为分类带来多少信息,带来的信息越多,则特征越重要
    • 对一个特征而言,系统有它和没它时信息量将发生变化,这个前后信息量的差值直接是这个特征给系统带来的信息量。
  • 信息熵判断:
    • 目标量信息增益值 - 特征列信息增益值。

回归模型参数判断(模型至少已经训练过1次):

  • 归一化;
  • 生成逻辑回归模型;
  • 对逻辑回归模型中的参数绝对值大小进行排序。
特征提取:

主成分分析 PCA:

  • 原理:
    • 用线性映射投影的方法,把高维数据映射到了低位空间中,PCA在投影过程中尽可能保证投影维度上的数据方差最大,同时保留较多原数据点的属性;
    • 旋转坐标轴至方差最大的方向。

线性判别式分析 LDA:

  • 原理:
    • 将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果;
    • 投影后保证模式样本在新的子空间有最大的类间距离和最小类间距离,即模式在该空间中有最佳的可分离性。

局部线性嵌入 LLE:

  • 原理:
    • 非线性降维法,降维后可以继续保持数据的流形结构,原来高维度上相近的数据点在低维上依旧距离近。

模型训练

        训练并生成备选模型…

模型评估

目的

        基于某些标准,选出、调试出概率最适的模型。

验证

K-折交叉验证:

  • 将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型;
  • 用这K个模型最终的验证 集的分类准确率的平均数作为此K-CV下分类器的性能指标;
  • K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取 2;
  • K-CV可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性。
标准

样本指标:

  • TP:
    • 对的被预测为对的;
    • 实际对。
  • FP:
    • 错的被预测为对的;
    • 实际错。
  • FN:
    • 对的被预测为错的;
    • 实际对。
  • TN:
    • 错的被预测为错的;
    • 实际错。

查准率:

  • TP/(TP+FP),在一次预测里面,对的被预测为对的,占所有被预测为对的 的比例;
  • 评估的是准确性。

查全率:

  • TP/(TP+FN),在一次预测里面,对的被预测为对的,占所有实际是对的 的比例;
  • 评估的是覆盖率。

F1值:

  • (2X准确率X召回率)/(准确率+召回率);
  • 因为准确率和召回率是相互矛盾的,但是我们希望这两个指标尽量高,综合下来创建了F1值来评价。

ROC:

  • 通过TP和FP绘制的曲线,曲线越靠近左上角则模型质量越高。

AUC

  • 是通过ROC计算出来的面积,面积越大则模型质量越高。

计算成本;
响应速度;
特异性;
通用性。

小结

        学习完整个流程之后,对AI设计的思路有了相对深刻的认知,也熟悉了各种基本算法的原理和优劣。

        这样,对AI“内视”的框架也基本搭建了起来,今后在面对真实的业务场景时,我相信能很快融入其中并且在继续学习时也有了方向以及基础。

九.验证假设

        假设的提出以及验证可以贯穿产品生命周期的所有流程。
        基于《精益创业》作者的观点:

所有的投入在没有得到经过测试验证的认知之前,都是浪费

        所以无论大到一个产品的萌生,还是小到一个功能的改动,都是从主观的假设到最后面对现实的检验。

        在接受现实真正的检验前,如果主动去基于一个个假设去进行多个小实验,得到确认后再进一步发力,这种方式可以让产品在面对现实真正的检验时更容易成功。

        以下是关于几个阶段的验证方式。

产品概念提出时

概述

        产品概念刚刚提出的时候,需要验证的最核心的即是应不应该开发这个产品,即验证价值假设,市场、用户、场景、痛点等是否都如预期的理想,综合判断下来值得投入,那么再推进开发,否则最好重新评估产品的定位

方法

定性:

  • 用户访谈:非常经典的手段了,核心是找到早期采纳者,听他们定性的说,验证痛点假设、商业模式假设;
  • 焦点小组:同用户访谈,但是焦点小组的成效取决于主持人的水平。

定量:

  • 冒烟测试:用户常常言不由衷,所以不单要听用户定性地说,还要看用户定量地做,通过冒烟测试看看一次测试中多大比例的用户对产品有兴趣;
  • 销售测试:基于产品概念、原型,尝试向早期使用者销售产品,验证商业模式、销售路线。

产品进入开发时

概述

        产品进入开放阶段时,仍然需要拥抱变化,因为市场和用户需求说不准也在不断变化。

        采用“敏捷开发”配合“用户探索”的方式稳步推进,每当完成阶段性版本时都有必要面对用户,保持足够的敏捷度预备随时转弯…

        随着开发原来越接近上线,投入的成本也趋近于最大值,那个时候再“发射火箭”进行确认的话,风险也将极其大。

概述方法

定性:

  • 用户访谈:开发阶段,版本之后继续小范围进行访谈,让用户试用并听用户声音,确保团队行驶在正确的方向上;
  • α测试:产品已经成型,属于较小规模的内部测试,自己人来跑产品,主要是验证产品的可用性、易用性;
  • β测试:产品已经准备好上市,作为较大规模外部用户参与的封测,开始验证产品的增长价值,并面对“跨越鸿沟”的问题。此时主要观察留存、日活跃是否处于理想状态,不是的话尽快暴露问题,提出限制增长的“核心因素”是什么的假设并开始基于这个点优化迭代产品,成功与失败以增长为依据。

定量:

  • 问卷调查:开发早期即可进行问卷,一个目的在于通过这种大范围的定量测试来检验需求的强度,二个目的在于通过强度来帮助确定产品功能开发的优先级

产品进入运营时

概述

        产品进入运营阶段时,“引擎”已经开始转动,此时追求的是“增长率”,让可执行——因果关系清晰、可使用——易于理解、可审查——真实可信的指标不断增长,而促进这一增长的方式,即是假设核心的“增长点”,进行试验,确认无误后再正式开放给用户。

概述方法

定量:

  • 这个阶段,主要观察用户如何定量地做,通过数据来指导开发操作;
  • A/B测试:对一个关键问题,做出两个假设并一次进行两次实验,取最优的上。

十.行业认知

        由于预期的切入点是人脸识别,所以基于人脸识别目前主要落地的行业进行分析。

AI+ 安防

概述

        安防行业智能化加速,进入AI时代,摄像头高清化、智能化、后端升级,填补了传统安防在当下越发不能满足行业对于安防系统准确度、广泛程度和效率的需求缺陷。

        人脸识别和视频监控是智能安防的核心,云边融合是智能安防未来发展趋势

        例如,海量高清视频传输占用宽带资源,而云边融合则将智能算法前置,在摄像机安装智能芯片,通过边缘计算将人脸识别等应用的抓图压力分摊到前端,解放中心的计算资源,同时提升服务的效率和精准性。

        政府是智能安防的主体,受益于我国的平安城市、雪亮工程、智慧交通战略,道路交通、海关边检等对视频监控需求量大,且G端安防需求较为一致,安防方案可以规模化拓展。另外,智能安防正从专业化市场向民用市场渗透。

        预计到2020年,我国安防市场规模将达万亿。AI企业在安防领域的优势在于技术,通过开发具备人脸识别功能的系统、芯片及摄像机等软件硬件,突破昏暗、雪雾天气等条件束缚,更精准锁定罪犯。

行业历史

模拟监控阶段:(1979—1983):

  • 早期的安防监控系统使用单位主要是一些非常重要的和特殊的单位和部门,系统由前端的模拟摄像机,后端的矩阵、磁带录像机和CRT电视墙构成;
  • 由于这个阶段摄像头设备由日系企业所垄断,国内自主知识产权的摄像头生产技术落后,争夺摄像头代理权成为行业的热点。

数字监控阶段(1984—1996):

  • 此阶段,数字化技术推动了DVR产品的诞生,性能远优于模拟监控设备;
  • DVR产品的出现,反过来推动了国内数字化摄像头产品的自主研发与生产,图像的分辨率逐步迈人标清时代。

高清化,网络化监控阶段(1984—1996):

  • 高清监控概念的引入,其带来的不仅仅是软硬件系统的革命,更大的意义在于由单一的视频监控,开始逐步过渡到视频监控与客户应用系统的融合;
  • 视频监控不再是一个信息孤岛,更多地与用户的业务系统结合,成为促进业务发展的重要资源。

智能化监控阶段(2009—2012):

  • 此阶段,安防行业基本上由信息获取阶段开始进入到信息的使用阶段;
  • 如今的安防系统已经不仅仅是一个简单的视频监控系统,安防系统已经扩展成为可以集成各行业业务管理、数据传输、视频、报警、控制于一体、可以实现对海量数据的存储、智能分析,调用的安防智能化综合管理平台。

智慧化监控阶段(2012一至今):

  • 随着物联网技术、人脸识别技术在社会公共安全领域的综合应用时机的逐渐成熟,并且随着2012年国家智慧城市发展战略的提出,智慧化势在必行。
行业发展

趋势:

  • 技术:
    • 数据采集:高清化、智能化(边缘计算):
    • 数据存储传输:云端化;
    • 数据处理:更强的边缘计算能力及与云端计算更好的融合;
  • 渗透率:
    • 二、三及以下线城市监控的渗透率将大幅提升;
    • 城市之间的渗透率差异将逐步减小。

当下增长能力:

  • 据不完全统计,到2018年末,中国安防企业约为3万家,从业人员达到160万人,安防企业年总收入达到6600亿元左右,相较2017年增长10%。

与宏观经济周期的关系:

  • 现在安防企业大多是2G项目,2018年的数据如下:
    • 市场公开招标的城市级安防项目有近2600多条,按项目的数量顺序,项目类型:
      • 交通管控(1173);
      • 平安城市(599);
      • 智慧交通(374);
      • 雪亮工程(339);
      • 智慧城市(103);
      • 人脸识别(21);
      • 智慧警务(11);
      • 城市大脑(8);
      • AI(4)。
    • 招标金额上亿的项目有149个,总金额达444亿,比2017年65亿高出7倍左右。
  • 现象:
    • 这些统计数据反射出的是一个蓬勃发展的大安防市场;
    • 平安城市、智慧城市、交通等常规项目市场依旧活跃,伴随着AI的落地应用,人脸识别、雪亮工程、城市大脑、AI等新型项目一跃而起,成为新兴的城市级安防项目的重头戏;
    • 可以预见,在未来几年,这几大新型项目将在各大城市有更活跃的表现;
    • 相对于其他大部分产业以大众需求、市场潮流为导向,安防产业作为直接服务于政府公共安全建设的行业,其客源具有相对的稳定性。
  • 风险:
    • 企业的营收和政府的需求挂扣紧密:
      • 对一些极度依赖政府采购的企业而言,政府在安防项目上需求的放缓或开放,都将成为影响企业营收的重要因素。
    • 互联网产业遭遇资本泡沫、宏观经济环境下行:
      • 国家去杠杆政策、政府债务问题直接导致影响;
      • 多家上市安防公司在2018年的季度财报中提到,在去杠杆的大形势下,实体经济整体下行,投资信心不足,政府与企业的投资行为都有所放缓。
    • 政府地方债:
      • 很多企业的资金都陷在政府项目中无法抽出;
      • 因为政府没有按照原来的合同或者进度进行支付,这个资金占用影响了企业特别是工程商的资金活力,将企业卡在“泥淖”中,进退两难。
    • 海外市场发展放缓:
      • 宏观经济、中美贸易战的影响、加征关税以及禁售风波,一定程度上扰乱了国内安防企业在海外市场的业务拓展计划和信心。

行业在其他国家的发展:

  • 服务标准高端化:
    • 安防行业的发展程度与地区经济直接挂钩;
    • 在经济发达地区比如欧美国家,用户更看重安防产品的高附加值(产品的品牌、智能化程度、服务等);
    • 因此,在美国安防市场,高端的运营服务公司更受用户欢迎
AI落地场景

政府:

  • 平安城市;
  • 雪亮工程;
  • 智能交通。

企业:

  • 防盗;
  • 楼宇监控;
  • 客流分析;
  • 门禁/闸机。

家庭:

  • 防盗;
  • 看护。
固有风险

行业竞争:

  • 行业日趋分化,市场“马太效应”凸显
  • 安防企业在经历前期的价格战以及并购整合以后,市场竞争局势逐渐明朗。一方面大型企业快速崛起,大型企业在综合实力、研发能力、议价能力、品牌影响力等方面全面领先于中小企业;
  • 此外大型企业在产业链延伸、产业跨界等方面的优势,直接导致了强者愈强,强者通吃的局面;
  • 另一方面规模较小,市场份额较低,管理方式较为落后的小型企业处境愈加艰难,他们的产品缺乏自身风格和市场差异化,再加上生产硬件的各种成本在不断升高,人工成本在直线上升,各种上游原器件的价格也在上涨,小型企业的生存空间被进一步压缩;
  • AI成为破局点,传统安防产品系统不稳定、生产效能低下、缺失智能化数据大平台,安防产品升级换代需求迫切 ,而以AI核心技术作来进行切入,成为当下视觉独角兽的制胜法宝,同时也驱动了老牌企业的转型。

行业整合:

  • 行业集中度:
    • 视频监控为安防行业核心,占据了超过30%的安防市场;
    • 随着AI赋能视频监控,视频监控的市场份额将大幅提升。
  • 外资进入:
    • 目前进入中国发展的外资企业超过200家;
    • 国内安防厂商提供的产品已与国外品牌产品在产品性能上已无差距,但国外品牌在售价方面却远远高于本土产品,加之本土企业更及时更有效的本土化服务体系,使得本土公司产品较外资品牌产品有了得天独厚的性价比优势。
  • 收购兼并:
    • 收购兼并对于行业环境的影响也是非常大的,竞争对手的竞争力会因为收购兼并而发生变化;
    • 对于产品经理而言,这一点也需要有心留意,此处就不多阐述。

政策——近3年:

  • 2016年:
    • 《“十三五”平安中国建设规划》:
      • 要求渗透率提升、安防与警务串联。
    • 《中国安防行业“十三五”(2016-2020)发展规划》:
      • 要求增加安防服务比重,安防规范化、系统化;
      • 安防渗透率提升。
  • 2017年:
    • 《“十三五”公共安全科技创新专项规划》:
      • 强化创新,提升违禁品检测力度。
  • 2018年:
    • 《关于推进城市安全发展的意见》:
      • 加大城市安全管理智能化升级。
    • 《促进新一代人工智能产业发展三年行动计划(2018-2020)年》:
      • 发展“视频图像身份识别系统”;
      • 计算机视觉识别理解要求技术创新,拓展在安防、金融领域的应用。
产业链

上游——基础设施:

  • 图像传感器;
  • 高清摄像头;
  • 编解码芯片;
  • 硬盘;
  • 服务器;
  • 算法。

中游——设备集成、运营商:

  • 安防视频监控产品;
  • 系统集成解决方案;
  • 安防运营服务。

下游——客户:

  • 各种应用场景。

AI+ 金融

概述

        金融+AI主要是通过AI核心技术(机器学习、知识图谱、自然语言处理、计算机视觉)作为主要驱动力,为金融行业的各参与主体、各业务环节赋能,突出AI技术对于金融行业的产品创新、流程再造、服务升级的重要作用。

        未来的金融服务将以用户的需求和体验为立足点,提供更加高效、安全、个性化的综合性解决方案,贯穿于金融服务垂直全流程,使资金融通的基础性作用以更加灵活、快速、精准的方式,服务于智能产业转型升级,服务于智能生活提质增效,进一步推动实体经济的高质量发展和社会民生的持续改善。

行业历史

IT+金融阶段:

  • 金融行业通过信息系统实现办公业务的电子化与自动化,增强数据交 互能力并提高服务效率。

互联网+金融阶段:

  • 利用互联网平台与移动智能;
  • 终端汇 集海量用户数据,打通各参与方信 息交互渠道并变革金融服务方式。

AI+金融阶段:

  • 基于新一代AI技术助力金 融行业转型,削弱信息不对称性 并有效控制风险,降低交易决策 成本,充分发掘客户个性化需求 与潜在价值。
行业发展

发展趋势:

  • 提升信息利用率:
    • 根据调查数据,全球金融服务领域的信息利用率仅有26%,在各行业属于偏低水平;
    • 同时金融是以数据分析为业务进行导向的,随着AI的普及和发展,已有的数据如何更好地被挖掘转化,新的数据如何被采集、利用、分析,都有巨大的提升空间。
  • 定制化:
    • 充分采集、利用用户的年龄、收入和消费结构、健康状况、阶段性需求、未来规划、风险承受能力等数据信息进行分析;
    • 从目前较为共性化、标准化的金融服务和产品,向更具个性化、定制化服务的方向发展。
  • 综合性:
    • 除了满足个人和企业用户的支付转账、理财借贷等基础性金融需求之外,将在财务规划、资产管理、保险保障、风险管理、决策支持等领域提供更为全面、综合性的解决方案。
  • 可控性:
    • 在金融服务数据互联互通、开放共享的基础上,从过去的手工报送监管数据,到实时、自动化方式进行数据收集、分析、报送;
    • 监管部门可以更为全面、及时地掌握相关领域风险集中度、关联度等信息,进一步提升金融活动可控性和风险监测水平。
  • 协同化:
    • 从纵向层面,金融机构、技术企业的密切合作将形成常态化机制,各主体之间优势互补,形成点、线、面不同维度的合作格局;
    • 从横向层面,在金融服务产业之外,AI+金融将充分发挥协同作用,助推传统商业模式的转型升级,培育数字经济领域新的增长点;
    • 协同化让普通百姓获得更高效、便捷、经济、安全的金融服务,成为促进实体经济提质增效、智能生活、惠民生方面的催化剂。

当下增长能力:

  • 2018年金融业收入接近70万亿,同比增长4.4%。

与宏观经济周期的关系:

  • 宏观经济周期必定会作用于金融行业,同时也必定会对金融行业带来一定的影响;
  • 政策管控:
    • 货币政策:
      • 货币政策作为政府宏观经济调控的主要工具,因为货币供给需求与社会供求关系的平衡之间是相辅相成的,所以,调控宏观经济,就必须依靠货币供给量;
      • 货币政策主要是控制货币供给量的调节过程,从而实现就业增加、经济发展等宏观经济目标;
      • 当下货币政策是,强调稳健以及内外平衡。
    • 财政政策:
      • 财政政策是政府所使用的除开货币政策之外的一种宏观经济调控的主要手段,财政政策会直接的影响证券、股票以及基金等;
      • 当下财政政策的现状是,扩张显著放缓、流动性管控严格。
    • 外界因素
      • 贸易战:贸易战因素,关税提升导致出口增速放缓,消费者消费欲望降低,进而导致了金融收入下降。

行业在其他国家的发展:

  • 金融去监管化:
    • 以美国为例,特朗普上台后实现“金融去监管”;
    • 监管环境趋于宽松,企业发展自由度高。
  • 金融科技化:
    • 特朗普上台后,监管机构对于金融科技创新采取了更为支持与鼓励的态度。
AI落地场景

智能支付场景:

  • 人脸、指纹、声纹、虹膜等生物识别支付;
  • 停车场车辆外观与号牌自动识别支付;
  • 用户账户自动聚类与关联分析。

智能客服场景:

  • 7*24小时机器人客服;
  • 取代传统菜单式语音+人工客服模式;
  • 金融机构网点分流引导式服务机器人。

智能投顾场景:

  • 个人理财产品策略咨询;
  • 股票配置、基金配置、债权配置、 交易执行、投资损失避税。

智能风控场景 :

  • 信贷审批、额度授信;
  • 信用反欺诈、骗保反欺诈;
  • 异常交易行为、违规账户侦测;
  • 风险定价、客户关联分析。

智能投研场景 :

  • 上市公司研报、公告关键信息分析;
  • 智能财务模型搭建与优化;
  • 投资策略规划与报告自动生成。

智能营销场景 :

  • 线上社交渠道智能获客;
  • 线下活动透视分析获客;
  • 销售报表自动生成智能分析

智能理赔场景 :

  • 智能辅助拍摄、远程精准定损;
  • 理赔材料信息快速提取、智能审核;
  • 维修方案、价格、年保费影响实时推送,快速赔付。
固有风险

行业竞争:

  • 以消费金融行业为例;
  • 随着政策支持及金融科技的发展,消费信贷市场扩张迅速,玩家扎堆,它们来自于产业系、电商系、互联网P2P系等不同派系;
  • 公开数据显示,截至目前,全国开业或筹建(含地方银监局批准而银保监会尚未批复的)中的持牌消费金融公司一共有27家,背后银行持股的消费金融公司占比达到8成。

政策:

  • 2017年 ——《新一代人工智能发展规划》 :
    • 提出要创新智能金融产品和服务,发展金融新业态,鼓励金融行业应用智能客服、智能监控等技术 和装备,建立金融风险智能预警与防控系统;
    • 中国人民银行成立金融科技委员会加强金融科技工作的研究规划和统筹协调,积极利 用大数据、AI、云计算等技术丰富金融监管手段,提升跨行业、跨市场交叉性金融风险的甄别、防范和化解能力。
  • 2018年 —— 来银监会以及央行共发布25个政策,内容概括如下:
    • 4大思路:
      • 在化解存量风险上求稳、遏制增量风险上求进,预留政策空间,实行新老划断;
      • 监管是短期和长期相结合的一个工作;
      • 当前金融创新不是过快,而是相对滞后,不是过多过度,而是相对不足,但对以套利为目的的“伪创新”坚决予以整治和取缔;
      • 将同业、理财、表外等业务以及影子银行作为2018年整治重点。
    • 8个重点:
      • 公司治理不健全,包括股东与股权、履职与考评、从业资质等三个方面;
      • 违反宏观调控政策,包括违反信贷政策和违反房地产行业政策;
      • 影子银行和交叉金融产品风险,包括违规开展同业业务、理财业务、表外业务、合作业务等四个要点;
      • 侵害金融消费者权益,主要是与金融消费者权益直接相关的不当销售和不当收费;
      • 利益输送,包括向股东输送利益、向关系人员输送利益;
      • 违法违规展业,包括未经审批设立机构并展业、违规开展存贷业务、违规开展票据业务、违规掩盖或处置不良资产等四个要点;
      • 案件与操作风险,主要是列举了一些案件高发多发的薄弱环节和存在的突出问题,包括员工管理不到位、内控管理不到位、案件查处不到到位;
      • 行业廉洁风险,包括业务经营和信息管理两个方面。
    • 4个要点:
      • 银监发7号文将贷款拨备的数值调控改为区间调控,表明监管权限在提升、容忍度在下降;
      • 央行和银监会双双鼓励商业银行资本工具创新,以应对表外回归表内对资本的过快消耗;
      • 银监会发布数据治理征求意见稿,以及牵头成立金融云公司,弥补商业银行数据质量短板,贯彻普惠金融发展路线;
      • 外资银行的开放进程不断加快。
产业链

上游:

  • 服务器;
  • 芯片;
  • 传感器;
  • 摄像头等其他硬件。

中游:

  • 技术软件厂商:
    • 计算机视觉;
    • 语音语义;
    • 生物识别;
    • 语料采集等其他技术。

下游:

  • 各种应用场景。

AI+零售

概述

        因为电子商务的崛起,许多传统零售业受到冲击而纷纷倒闭关门,但是传统零售仍然占据的主要的市场份额,是人们购物的主要场景。

        如今随着AI的崛起,电商线下体验严重不足的缺点有了替补的解决方案,同时意味着电商也将迎来自己的天花板。

        对于趋势的来临,线下实体店的升级将为传统零售业突破瓶颈迎来新的发展。

        人们对于购物的认知已经随着AI的兴起发生了改变。

        在过去,人们认为购物只是买东西,如今人们会把购物当做一种生活方式,通过购物而获得更好的线下体验。

        所以在AI技术逐渐成熟的基础上,零售业将会出现前所未有的转变,新零售正在崛起。

        随机AI越来越受到关注,不少企业也开始注重AI在零售业方面的布局,从而将AI技术融入到新零售业务中。未来新零售与智能化息息相关,它绝大部分都需要依靠AI实现自动化和标准化。

        因此,在AI的应用场景下,新零售也正在发生翻天覆地的变化,未来将会有更多的AI产品应用在新零售中,从而为顾客打造焕然一新的购物场景。

行业历史

传统零售:

  • 百货商场:
    • 世界上第一家百货商店出现在1852年,打破了“前店后厂”的小作坊运作模式;
    • 秋林公司则是我国第一家百货公司,于1900年由俄国人在哈尔滨开设。
  • 连锁商店:
    • 连锁商店由美国人首先发明;
    • 1859年,美国大西洋和太平洋茶叶公司建立了世界上第一家连锁商店;
    • 连锁店建立了统一化管理和规模化运作的体系,提高了门店运营的效率,降低了成本;
    • 随着连锁商店的快速发展,其分布范围也越来越广泛,尤其是贴近社区的连锁商店,让居民生活更便捷。
  • 超级市场:
    • 超级市场大约在1930年开始发展成形,开创了开架销售、自我服务的模式,创造了一种全新体验;
    • 同时,随着IT系统进入超级市场,其商品的流通速度和周转效率大大提升。

电子商务:

  • 20世纪初,随着互联网的发展,电子商务开始诞生,它将商品数据化,通过互联网实现交易,重新定义了人物货物之间的关系。

新零售:

  • 它以电子商务为基础,颠覆了传统多级分销体系,降低了分销成本,使商品价格进一步下降;
  • 在“新零售”中,大数据、AI等先进技术手段全部融入其中,对商品的生产、流通与销售过程进行智能化升级改造,进而重塑业态结构与生态圈。
行业发展

发展趋势:

  • 供应链数据化、高效化:
    • 供应链上游大多为传统制造业,信息数字化的程度才刚刚起步,整体的效率偏低导致整个供应链的低效;
    • 将来零售业的发展必须要突破这个瓶颈才能进一步提升用户体验。
  • 更加以消费者为中心:
    • 在零售市场竞争激烈的环境下、在商品极大丰富的大背景下,零售的发展,已逐步走出以商品为中心的模式,转向以消费者为中心,以流量为中心的方向加快发展;
    • 零售需要从内容、形式和体验上如何更好地满足消费者的需求,“精细化”、“差异化”是当前零售经营的核心。
  • 全渠道零售:
    • 目前的零售市场已经是高度的线下与线上二维市场;
    • 未来的零售市场必将是更加充分的二维市场结构空间;
    • 市场不会再回到单一的线下市场结构,只有实现二维市场融和规划,协同发展,才是把握了市场的全部。
  • 智能化、无人零售:
    • 随着信息技术、智能技术的逐步成熟,AI将会逐步取代部分的人力,而使零售效率得到提升;
    • 沃尔玛、亚马逊等已经在无人零售上迈出了步伐,从成本、效率、体验出发,无人零售、自助零售已经成为零售创新发展的新热点。

当下增长能力:

  • 2018年我国零售业经营单位有2078万个,同比增长7.2%。收入方面,总收入超过35万亿,同比增长8.2%。

与宏观经济周期的关系:

  • 抗周期特性明显:
    • 2008-2009年,金融危机时期;
    • 在大多数行业增长都出现了不同程度下滑的情况下,零售行业整体仍然表现出了的抗周期性的特点,社会消费品零售总额分别同比增长21.6%和15.5%。

行业在其他国家的发展:

  • 连锁经营发展势头依然强劲:
    • 欧洲连锁经营已步入后现代阶段;
    • 美日连锁经营份额将进一步提升。
  • 城市小型业态发展前景良好:
    • 欧美便利店和美国便利店增长迅猛;
    • 日本小型综超已成为新的增长点。
  • 自有品牌创新深耕细分市场:
    • 英美百货超市自有品牌稳步拓展;
    • 日本零售自有品牌开发创新不断。
  • 网络零售带动传统业态增长:
    • 英国品牌商和零售商均开网店;
    • 美国实体店占据网购半壁江山。
  • 消费体验和个性化服务凸显:
    • 欧美零售注重现场消费体验;
    • 日本零售服务功能逐步强化。
  • 营销由多渠道向全渠道发展:
    • 英国融合实体网络全渠道;
    • 美国实现线上线下无缝对接。
  • 物流配送延伸到顾客家门口:
    • 日本实体店推出送货上门服务;
    • 美国电商提供免邮和代收服务。
  • 可持续成为高级阶段关注点:
    • 消费者更加关注绿色和可持续;
    • 企业逐步向绿色零售商转变。
AI落地场景

生产制造:

  • 智能机器人;
  • 智能制造;
  • 大数据。

供应链管理:

  • 大数据。

物流仓储:

  • 无人机;
  • 智能机器人;
  • 大数据。

经营管理:

  • 大数据。

消费场景:

  • 以图搜货;
  • 刷脸支付;
  • 客流分析;
  • 智能导购。
固有风险

行业竞争

  • 竞争以市场行为主导:
    • 零售业中企业数量众多,产品价格透明度高、差异化小、可替代性高,导致企业间竞争十分激烈,价格战十分常见;
    • 政府把商业零售和餐饮服务业作为一种竞争性产业,对其发展资源、发展方向、发展规模、发展形式完全由市场配置、选择和调节。
  • 传统国营商业、民营企业和外资企业三鼎分立:
    • 传统国营商业:现代商业零售业中,传统国合商业虽然占有一席之地,但受传统经营思想的影响,在经营思想、企业体制、运转机制、产业结构、业态形式、发展资源、科技进步、管理架构等新体系建立的根本性问题上,基本上没有按照现代流通业的模式很好改造;
    • 民营企业:除大百货公司外,在连锁超级市场、仓储商店、便利店、专卖店、专业店等现代零售业态上,不起主导和决定作用,社会其他部门、行业、其他经济成份的企业,包括工业、农业、交通、建筑、房地产部门办的商业零售业不少;
    • 外资企业增多:近几年,国内经济发展迅速,消费增加,吸引不少外资零售业企业进入中国,加快扩张速度,他们利用政府的商业政策,主要和国合商业以外的非商业机构和企业合作,取得经营管理上更大的自主权和主动权。
  • 企业之间的竞争激烈程度加剧:
    • 随着零售企业之间日趋激烈的同业竞争,导致不少零售企业破产或者被迫区域性退出;
    • 而这种竞争态势将继续在以后的时间里存在,意味着有更多的企业迫于竞争压力而破产或者退出。
  • 行业竞争正慢慢向二、三线城市渗透:
    • 随着竞争的日趋激烈和宏观经济环境的变化,再加上内外资零售巨头的围棋布局发展,这些各地的“龙头”开始担忧,如果不与时惧进,创新变革发展,就有可能固步自封,甚至被实力更强的企业吞并;
    • 因此,做大做强成了他们的必然选择,二、三线城市成为这些大型企业经营扩张的主战场

行业整合

  • 行业集中度:
    • 整个零售业仍然是高度分散的,六大连锁集团(大润发、沃尔玛、华润万家、联华、永辉、家乐福)仅占整个市场份额的15%。
  • 外资进入:
    • 近年来,大批外资企业宣布退出中国市场,因为随着国内零售升级,外资企业没有很好的跟上节奏实现本土化、精细化、差异化

政策:

  • 2017年:
    • 扩大跨境电商零售进口监管过渡期政策:
      • 中国跨境电商行业链条将日臻完善,行业格局也将日渐稳固,跨境电商也会进入蓬勃发展的新阶段;
      • 政策拥有高超的市场敏锐度,潜移默化地在满足并推进消费升级的市场环境要求。
    • 《国务院关税税则委员会关于调整部分消费品进口关税的通知》:
      • 消费结构的升级,直接催促着国内供给体系的转型升级;
      • 此次降低部分消费品进口关税,能够满足消费者对于商品的多元化需求,有利于丰富国内的消费选择,拉动经济内需,有利于国内经济的长远和可持续发展。
    • 国务院办公厅印发《关于积极推进供应链创新与应用的指导意见》:
      • 新零售、智慧零售都是在以客户为中心的基础上,提升服务和提高效率;
      • 而服务和效率的完善,根本支柱是智慧的供应链体系;
      • 智慧供应链体系能够使组织的协同更加高效、供给与需求的匹配更加精准;
      • 而此次供应链创新的政策扶植,正是推进供给侧改革的关键,是促进产业升级的源动力。
    • 商务部等五部门发出《关于促进外贸综合服务企业健康发展有关工作的通知》:
      • 该项通知的出台深入贯彻了2016年中央经济工作会议关于注重用新技术新业态全面改造提升传统产业的要求,体现出了传统产业转型的必要性和紧迫性;
      • 综服企业快速发展需要与之相适应的政策框架支持,由此高效落实的任务有了充分保证。
    • 《国务院办公厅关于加快发展冷链物流保障食品安全促进消费升级的意见》:
      • 在无人零售和生鲜电商快速发展的元年,冷链物流保证政策的出台可谓是一剂定心丸;
      • 冷链物流体系的构建与强化,一方面可以满足消费升级下人们的及时健康消费需求,另一方面也有利于企业提质增效,为新零售企业的规模利润实现难题打开解决窗口。
    • 商务部等五部门关于印发《商贸物流发展“十三五”规划》的通知:
      • 现代物流被称为第三利润源,国家重视商贸物流发展,有利于带动产业转型升级,同时商业新技术、新业态、新模式的出现,也将给行业发展带来新的机遇;
      • 如此一来,企业在政策的鼓励下,将着眼于提高流通效率,形成全产业链集成发展的融合发展格局。
    • 《商务部关于进一步推进国家电子商务示范基地建设工作的指导意见》:
      • 结合地方电子商务和经济发展情况,发挥政府的引导作用,实施体制机制和政策创新,强化市场的主导作用,进一步激发示范基地和电子商务企业活力,实现创新引领,协调发展;
      • 争取到2020年,示范基地内电子商务企业数量达到10万家,孵化电子商务企业数量超过3万家,带动就业人数超过500万,形成园企互动、要素汇聚、服务完备、跨域合作、融合发展的电子商务集聚区。
产业链

上游:

  • 供应商;
  • 服务器;
  • 芯片;
  • 传感器;
  • 摄像头等其他硬件。

中游:

  • 技术软件厂商:
  • 物流仓储。

下游:

  • 线下门店;
  • 线上渠道。

十.致谢

AI产品经理大本营饭团

hanniman

《AI技术通识系列(3)——语音识别ASR(上)》
《AI技术通识系列(4)——语音识别ASR(中)》
《AI技术通识系列(5)——语音识别ASR(下)》
《语音合成TTS | AI产品经理需要了解的AI技术概念》
《AI概念厘清:自然语言处理(NLP) vs 自然语言理解(NLU)》
《AI概念厘清:自然语言处理(NLP) vs 自然语言理解(NLU)(下)》

Insight

《NLP基本功——文本相似度》

阳春柏樰

《人脸识别产品设计,AI产品经理需要了解的实战干货都在这里了》

jasmine

《人脸识别 | AI产品经理需要了解的CV通识(二)》
《多目标跟踪 | AI产品经理需要了解的CV通识(三)》
《光学字符识别(OCR) | AI产品经理需要了解的CV通识(四)》
《看AI产品经理如何介绍“计算机视觉”》

公众号

新智元

《计算机视觉这一年》

将门

《商汤徐立:计算机视觉的完整链条,从成像到早期视觉再到识别理解》
《格灵深瞳赵勇:计算机视觉在安防、交通、机器人、无人车等领域的应用》

AI智道

《AI深度(上) | 3D人脸识别和结构光》
《AI深度(下) | 非人脸识别和ToF技术》

报告

注:我将搜索到的报告上传至我的百度网盘,提取码为:yiua

《中国人工智能发展报告2018年》
《北京人工智能产业发展白皮书 2018年》
《中国人工智能行业研究报告 2018年》
《中国人工智能行业研究报告 2017年》
《中国人工智能投资市场研究报告 2018年》
《中国人工智能+金融行业研究报告 2018年》
《人工智能在电子商务行业的应用和对就业影响研究报告 2017年》

书籍

《人工智能产品经理AI:时代PM修炼手册》
《人工智能商业化落地实战》
《产品经理必懂的技术那点事儿——成为全栈产品经理》
《机器学习》
《机器学习实践应用》
《精益创业》
《产品经理认证 NPDP》
《GPST产品管理讲义》

网站

《Coursera机器学习》
Jack Cui 机器学习/深度学习

  • 7
    点赞
  • 0
    评论
  • 26
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值