Django学习笔记（四十五）:haystack全文检索框架+whoosh搜索引擎+jieba分词实现全文检索功能

最新推荐文章于 2022-11-11 16:51:56 发布

小火skr车

最新推荐文章于 2022-11-11 16:51:56 发布

阅读量1k

点赞数 2

分类专栏： Django

本文链接：https://blog.csdn.net/xiaohuoche175/article/details/89315317

版权

本文介绍了如何在Django中利用haystack框架结合whoosh搜索引擎和jieba分词实现全文检索功能。从安装依赖、配置settings.py、创建搜索索引到解决中文分词问题，逐步解析了全文检索的实现过程。

摘要由CSDN通过智能技术生成

全文检索不同于特定字段的模糊查询，使用全文检索的效率更高，并且能够对于中文进行分词处理。

haystack：全文检索的框架，支持whoosh、solr、Xapian、Elasticsearc四种全文检索引擎，点击查看官方网站。
whoosh：纯Python编写的全文搜索引擎，虽然性能比不上sphinx、xapian、Elasticsearc等，但是无二进制包，程序不会莫名其妙的崩溃，对于小型的站点，whoosh已经足够使用，点击查看whoosh文档。
jieba：一款免费的中文分词包，如果觉得不好用可以使用一些收费产品。

1）在虚拟环境中依次安装需要的包。

pip install django-haystack
pip install whoosh
pip install jieba

2）修改settings.py文件，安装应用haystack。

INSTALLED_APPS = (
    ...
    'haystack',
)

3）在settings.py文件中配置搜索引擎。

...
HAYSTACK_CONNECTIONS = {
    'default': {
        #使用whoosh引擎
        'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine',
        #索引文件路径
        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
    }
}

# 当添加、修改、删除数据时，自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

# 指定搜索结果每页显示的条数
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 1

4）在相应的app目录中添加搜索的配置，文件名必须为search_indexes.py。

# 定义索引类
from haystack import indexes
# 导入你的模型类
from goods.models import GoodsSKU


# 指定对于某个类的某些数据建立索引
# 索引类名格式:模型类名+Index
class GoodsSKUIndex(indexes.SearchIndex, indexes.Indexable):
    # 索引字段 use_template=True指定根据表中的哪些字段建立索引文件的说明放在一个文件中
    text = indexes.CharField(document=True, use_template=True)

    def get_model(self):
        # 返回你的模型类
        return GoodsSKU

    # 建立索引的数据
    def index_queryset(self, using=None):
        return self.get_model().objects.all()