百度的吴华博士从搜索引擎的用户需求出发,她说道目前用户的搜索需求已经不限定在关键词的搜索,而是一些有语义的内容搜索,提到了目前互联网应用中的趋势:
前互联网应用中的趋势:
基于知识网络的全面搜索需求,其中包括 知识、语义搜索 (精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
主动推荐,不搜即得
精准的 个性化服务
面对这样的搜索需求时,给NLP带来了还大的挑战,主要表现在四个方面:
需求识别,输入复杂、需求多样
知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
用户引导方面,如何建议、扩展以及交互
结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑
文本理解包括用户需求的蓝屏以及广义的理解, 用户理解就是给用户建模知道他要做什么 。基础的技术角度设计语法分析、句法分析、语义分析、ML模型,在应用中对应了知识图谱、Query分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:
实体挖掘 ,例如用户在搜索“中国合伙人”时,将会从Query Log挖掘、URL pattern挖掘以及从title中挖掘
Ontology建设 ,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
语义计算
随后她提到了Query理解的内容,Query理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:
Query改写
意图归一
复杂Query理解
当用户输入有误时,一般使用机器翻译模型来进行Query改写;对于一个Query的多种表达方式,使用Query Pair文本语义匹配计算,目前的准确率是90%,比基线高出绝对值高出10%;针对复杂的query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。
语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析, 在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自ASR和SLU结果的不确定性,然后根据用户提供的新信息来确定下一步行为 。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于AI或者统计学的方法来实现。
为什么IBM Research是许多NLP核心算法的开创者、Microsoft Research拥有豪华的NLP科研团队,反倒是Google能第一个把翻译做成大规模互联网产品?李志飞指出:
团队基因:科学家+工程师
整个谷歌大环境是实用至上
大数据,中英系统用几千万对句子
云架构:GFS、Map-reduce、BigTable
由于现成的理论和模型,他认为一个10个人的开发团队+16个人的产品团队完全可以做一个谷歌翻译。
基于知识网络的全面搜索需求,其中包括 知识、语义搜索 (精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
主动推荐,不搜即得
精准的 个性化服务
面对这样的搜索需求时,给NLP带来了还大的挑战,主要表现在四个方面:
需求识别,输入复杂、需求多样
知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
用户引导方面,如何建议、扩展以及交互
结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑
文本理解包括用户需求的蓝屏以及广义的理解, 用户理解就是给用户建模知道他要做什么 。基础的技术角度设计语法分析、句法分析、语义分析、ML模型,在应用中对应了知识图谱、Query分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:
实体挖掘 ,例如用户在搜索“中国合伙人”时,将会从Query Log挖掘、URL pattern挖掘以及从title中挖掘
Ontology建设 ,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
语义计算
随后她提到了Query理解的内容,Query理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:
Query改写
意图归一
复杂Query理解
当用户输入有误时,一般使用机器翻译模型来进行Query改写;对于一个Query的多种表达方式,使用Query Pair文本语义匹配计算,目前的准确率是90%,比基线高出绝对值高出10%;针对复杂的query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。
语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析, 在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自ASR和SLU结果的不确定性,然后根据用户提供的新信息来确定下一步行为 。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于AI或者统计学的方法来实现。
为什么IBM Research是许多NLP核心算法的开创者、Microsoft Research拥有豪华的NLP科研团队,反倒是Google能第一个把翻译做成大规模互联网产品?李志飞指出:
团队基因:科学家+工程师
整个谷歌大环境是实用至上
大数据,中英系统用几千万对句子
云架构:GFS、Map-reduce、BigTable
由于现成的理论和模型,他认为一个10个人的开发团队+16个人的产品团队完全可以做一个谷歌翻译。