query理解--基础入门了解

最新推荐文章于 2024-07-11 23:05:11 发布

Catherine_In_Data

最新推荐文章于 2024-07-11 23:05:11 发布

阅读量3k

点赞数

分类专栏： query理解

本文链接：https://blog.csdn.net/zhouwenyuan1015/article/details/106200893

版权

query理解专栏收录该内容

4 篇文章 2 订阅

订阅专栏

query理解主要做的事

   那么，要做query，要做什么工作呢。仔细想想，其实主要就是下面几个：

   （1）纠错改写：
           针对用户输错的，没输入完全的，内容，进行修正。底层数据库只支持精准搜索，因此需要将query改写到正确的内容下。
   
   （2）意图识别：
         通过分析语义等方式，在一定的类目结构下，识别出具体意图。这个意图识别的目标，大家可以理解为告诉下游，需要在哪个库数据进行搜索。
  
   （3）实体识别。
        其实和意图识别一样，只不过，粒度更细，但是是词级别的分析，从query中抽取关键的实体，如果说意图识别是为了告诉下游该检索那个数据库，那实体识别就是为了告诉下游，在该数据库下，该检索哪些字段。

   (4)词权重问题。
         query里面有两个词，两个文档分别匹配到了其中一个词，那谁能靠前？这就要看匹配到什么内容更为重要。如家宾馆，匹配到一个如家酒店和五洲宾馆，如家酒店应该在前，这里就是为了解决这个问题。

query 理解难点
（1）输入不规范
自然语音与非标准自然语音。如：附近的特检九点，上海告诉怎么走，披星戴月，吾尝终日而思。

（2）多意图。
如用户搜索”变形金刚“，指电影还是游戏？

（3）意图强度。
不同用户对相同的查询有不同需求强度。如，宫保鸡丁：宫保鸡丁菜，菜谱占90%。宫保鸡丁歌曲下载需求占10%等。

（4）意图时效性变化
就是随着时间的推移一些查询词的意图会发生变化。
比如：华为 P10 国行版 3 月 24 日上市。
3 月 21 日的查询意图：新闻 90%，百科 10%。
3 月 24 日的查询意图：新闻 70%，购买 25%，百科 5%
5 月 1 日的查询意图：购买 50%，资讯 40%，其他 10%
5 年以后的查询意图：百科 100%
```
  （5）数据冷启动问题：
           行为数据较少时， 很那准确获取用户搜索意图。

    （6） 没有固定评估的标准，CTR,MAP, MRR, nDCG量化指标主要针对搜索引擎整体效果，具体到用户意图的预测没有明确的指标。
```
query理解分类
（1）导航类：用户明确要去某个站点，但不想自己输入URL，如用户搜索“新浪网”

（2）信息类：细分为如下几种子类型：
直接型：想了解某提某方面明确的信息。如，地球为什么是圆的。
间接型：某个话题任意方面信息。
建议型：搜到一些建议，意见或某方面的知道。如，如何选股票。
定位型：现实生活找到某些产品或服务。