一个 Python 的轻量级搜索工具 -- Whose

最新推荐文章于 2024-08-18 21:04:21 发布

Python之栈

最新推荐文章于 2024-08-18 21:04:21 发布

阅读量1k

点赞数 31

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53707653/article/details/139096419

版权

本文将简单介绍 Python 中的一个轻量级搜索工具 Whoosh，并给出相应的使用示例代码。

# Whoosh 简介

Whoosh 由 Matt Chaput 创建，它一开始是一个为 Houdini 3D 动画软件包的在线文档提供简单、快速的搜索服务工具，之后便慢慢成为一个成熟的搜索解决工具并已开源。

Whoosh 纯由 Python 编写而成，是一个灵活的，方便的，轻量级的搜索引擎工具，现在同时支持 Python2、3，其优点如下：

Whoosh 纯由 Python 编写而成，但很快，只需要 Python 环境即可，不需要编译器；
默认使用 Okapi BM25F 排序算法，也支持其他排序算法；
相比于其他搜索引擎，Whoosh 会创建更小的 index 文件；
Whoosh 中的 index 文件编码必须是 unicode;
Whoosh 可以储存任意的 Python 对象。

Whoosh 的官方介绍网站为：https://whoosh.readthedocs.io/en/latest/intro.html 。相比于 ElasticSearch 或者 Solr 等成熟的搜索引擎工具，Whoosh 显得更轻便，操作更简单，可以考虑在小型的搜索项目中使用。

# Index & query

对于熟悉 ES 的人来说，搜索的两个重要的方面为 mapping 和 query，也就是索引的构建以及查询，背后是复杂的索引储存、query 解析以及排序算法等。如果你有 ES 方面的经验，那么，对于 Whoosh 是十分容易上手的。

按照笔者的理解以及 Whoosh 的官方文档，Whoosh 的入门使用主要是 index 以及 query。搜索引擎的强大功能之一在于它能够提供全文检索，这依赖于排序算法，比如 BM25，也依赖于我们怎样储存字段。因此，index 作为名词时，是指字段的索引，index 作为动词时，是指建立字段的索引。而 query 会将我们需要查询的语句，通过排序算法，给出合理的搜索结果。

关于 Whoosh 的使用，在官文文档中已经给出了详细的说明，笔者在这里只给出一个简单的例子，来说明 Whoosh 如何能方便地提升我们的搜索体验。

# 示例代码

数据

本项目的示例数据为 poem.csv，下图为该数据集的前十行：

图片

poem.csv

字段

根据数据集的特征，我们创建四个字段（fields）：title, dynasty, poet, content。创建的代码如下：

其中，ID 只能为一个单元值，不能分割为若干个词，常用于文件路径、URL、日期、分类；
TEXT 文件的文本内容，建立文本的索引并存储，支持词汇搜索；Analyzer 选择结巴中文分词器。

创建索引文件

接着，我们需要创建索引文件。我们利用程序先解析 poem.csv 文件，并将它转化为 index，写入到 indexdir 目录下。Python 代码如下：

index 创建成功后，会生成 indexdir 目录，里面含有上述 poem.csv 数据的各个字段的索引文件。

查询

index 创建成功后，我们就利用进行查询。
比如我们想要查询 content 中含有明月的诗句，可以输入以下代码：

输出结果如下：

关注

31
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python之栈 CSDN认证博客专家 CSDN认证企业博客

码龄4年

244: 原创

5328: 周排名

5474: 总排名

22万+: 访问

: 等级

6409: 积分

3144: 粉丝

3869: 获赞

9: 评论

2695: 收藏

私信

关注

热门文章

最新评论

Python正式发布年度大更新3.13.0：实验性支持no-GIL、性能起飞！
阿J~: 技术流的小哥哥最帅了∩▂∩
MoviePy，一个神奇的python库
稻米_rice: moviepy都在2020年停止维护了，好事好用bug一堆，剪辑速度超慢，改造使用GPU加速ffmpeg还是慢
Python爬虫实战案例之——MySql数据入库
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
分享三个Python打包利器：PyInstaller，cx_Freeze和py2exe
要快些变强啊: pyinstaller会爆仓，磁盘直接撑爆
用ChatGPT做数据分析与挖掘，爽！
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619339810。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。