python 基于倒排索引和tfidf的搜索实现

实现步骤

1.对语料实现word2index的倒排索引
2.构建 {"word": {"tfidf": float, "b2index": set}}搜索模型
3.查询 计算哪个index的tfidf之和最大,实现搜索功能

实现代码

封装成搜索类

logging.basicConfig(format="%(asctime)s %(name)s:%(levelname)s:%(message)s", datefmt="%d-%M-%Y %H:%M:%S",
                    level=logging.INFO)


class TFIDFSearch:

    def __init__(self, corpus):
        self.corpus = corpus  # 待检索语料
        # idf计算
        self.idf_fuc = lambda word, count_lst: math.log(len(count_lst)) / (
                1 + sum(1 for count in count_lst if word in count))

    def word2index(self):
        """实现倒排索引"""
        count_lst = []  # Counter结果
        index_dic = {}  # 倒排索引结果
        tf_dic = {}  # tf结果
        for index, sent in enumerate(self.corpus):
            words = seg.segment(sent)
            word_coun
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值