query理解--基础入门了解

  1. query理解主要做的事
   那么,要做query,要做什么工作呢。仔细想想,其实主要就是下面几个:

   (1)纠错改写:
           针对用户输错的,没输入完全的,内容,进行修正。底层数据库只支持精准搜索,因此需要将query改写到正确的内容下。
   
   (2)意图识别:
         通过分析语义等方式,在一定的类目结构下,识别出具体意图。这个意图识别的目标,大家可以理解为告诉下游,需要在哪个库数据进行搜索。
  
   (3)实体识别。
        其实和意图识别一样,只不过,粒度更细,但是是词级别的分析,从query中抽取关键的实体,如果说意图识别是为了告诉下游该检索那个数据库,那实体识别就是为了告诉下游,在该数据库下,该检索哪些字段。

   (4)词权重问题。
         query里面有两个词,两个文档分别匹配到了其中一个词,那谁能靠前?这就要看匹配到什么内容更为重要。如家宾馆,匹配到一个如家酒店和五洲宾馆,如家酒店应该在前,这里就是为了解决这个问题。
  1. query 理解 难点
    (1)输入不规范
    自然语音与非标准自然语音。如: 附近的特检九点,上海告诉怎么走,披星戴月,吾尝终日而思。

    (2) 多意图。
    如用户搜索”变形金刚“,指电影还是游戏?

    (3) 意图强度。
    不同用户对相同的查询有不同需求强度。 如,宫保鸡丁: 宫保鸡丁菜,菜谱占90%。宫保鸡丁歌曲下载需求占10%等。

    (4)意图时效性变化
    就是随着时间的推移一些查询词的意图会发生变化。
    比如:华为 P10 国行版 3 月 24 日上市。
    3 月 21 日的查询意图:新闻 90%,百科 10%。
    3 月 24 日的查询意图:新闻 70%,购买 25%,百科 5%
    5 月 1 日的查询意图:购买 50%,资讯 40%,其他 10%
    5 年以后的查询意图:百科 100%

      (5)数据冷启动问题:
               行为数据较少时, 很那准确获取用户搜索意图。
    
        (6) 没有固定评估的标准,CTR,MAP, MRR, nDCG量化指标主要针对搜索引擎整体效果,具体到用户意图的预测没有明确的指标。
    
  2. query理解分类
    (1) 导航类: 用户明确要去某个站点,但不想自己输入URL,如用户搜索“新浪网”

    (2) 信息类: 细分为如下几种子类型:
    直接型:想了解某提某方面明确的信息。如,地球为什么是圆的。
    间接型: 某个话题任意方面信息。
    建议型: 搜到一些建议,意见或某方面的知道。如,如何选股票。
    定位型:现实生活找到某些产品或服务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值