nlp基础—4.搜索引擎中关键技术讲解

  搜索引擎中的关键是信息检索中的匹配与搜索算法。下面介绍在信息检索领域比较经典的匹配算法:

  1. lnverted lndex and Boolean Retrieval(倒排索引与布尔检索)
    正向索引是基于文档与词语的映射关系
    在这里插入图片描述
    但是,我们更希望建立基于词语到文档的映射关系,这就是倒排索引。
  1. 按照索引收集文档
  2. 标记单词,将每个文档转换为一个单词列表
  3. 进行语言预处理,生成规范化标记列表,其中索引项是:
    在这里插入图片描述
  4. 通过创建倒排索引来索引每个术语出现的文档
    在这里插入图片描述
    在这里插入图片描述
  1. Rank Retrieval 排名检索(tf-idf,BM25)
    计算文本相似度排序
    TF-IDF

    常用TF-IDF来计算权重,公式为:
    T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值