solr

最新推荐文章于 2024-06-25 10:33:00 发布

青龙小码农

最新推荐文章于 2024-06-25 10:33:00 发布

阅读量180

点赞数

分类专栏：搜索引擎

本文链接：https://blog.csdn.net/wenwang3000/article/details/99423153

版权

搜索引擎专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一般来说，搜索引擎有三个基本组件：

Web爬虫 - Web爬虫也称为蜘蛛或机器人。 它是一个收集网络信息的软件组件。
数据库 - Web上的所有信息都存储在数据库中。它们包含大量的Web资源。
搜索接口 - 此组件是用户和数据库之间的接口。它帮助用户搜索数据库。

Apache Solr的主要构建块(组件)：

请求处理程序 - 发送到Apache Solr的请求由这些请求处理程序处理。请求可以是查询请求或索引更新请求。根据这些请示的要求来选择请求处理程序。为了将请求传递给Solr，通常将处理器映射到某个URI端点，并且它将为指定的请求提供服务。
搜索组件 - 搜索组件是Apache Solr中提供的搜索类型(功能)。它可能是拼写检查，查询，构面，命中突出显示等。这些搜索组件被注册为搜索处理程序。多个组件可以注册到搜索处理程序。
查询解析器 − Apache Solr查询解析器解析传递给Solr的查询，并验证查询的语法是否有错误。解析查询后，将它们转换为Lucene理解的格式。
响应写入器 - Apache Solr中的响应写入器是为用户查询生成格式化输出的组件。 Solr支持XML，JSON，CSV等响应格式。对每种类型的响应都有不同的响应写入。
分析器/分词器 - Lucene以令牌的形式识别数据。 Apache Solr分析内容，将其分成令牌，并将这些令牌传递给Lucene。 Apache Solr中的分析器检查字段的文本并生成令牌流。分词器将分析器准备的令牌流分解成令牌。
更新请求处理器 - 每当向Apache Solr发送更新请求时，请求都通过一组称为更新请求处理器的插件(签名，日志记录，索引)运行。这个处理器负责修改，例如删除字段，添加字段等。

核心(core) - 在应用程序中运行多个索引时，可以在每个实例中拥有多个核心，而不是每个核心的多个实例。
主目录(home) - 术语$SOLR_HOME是指主目录，其中包含有关内核及其索引，配置和依赖关系的所有信息。
碎片(Shard) - 在分布式环境中，数据在多个Solr实例之间进行分区，其中每个数据块可以称为碎片(Shard)。它包含整个索引的子集。

与Solr Cloud相关的主要术语如下

节点(Node) - 在Solr云中，Solr的每个单个实例都被视为一个节点。
集群 - Solr云环境中的所有节点组合在一起构成集群。
集合 - 集群具有称为集合的逻辑索引。
碎片 - 碎片是集合的一部分，它具有一个或多个索引副本。
副本 - 在Solr Core中，在节点中运行的分片副本称为副本。
领导者(Leader) - 它也是碎片的副本，它将Solr Cloud的请求分发给剩余的副本。
Zookeeper - 这是一个Apache项目，Solr Cloud用于集中配置和协调，管理集群和选择领导者

命令

启动 solr start
后台启动 solr start -f
指定端口启动 solr start -p 80
停止 solr stop
重启 solr restart
查看状态 solr status
创建内核 solr create_core - c my_core
-p port_name 要创建的核心的端口
-d conf_dir 端口的配置目录
删除核心
solr delete -c my_core
查询参数
q 这是Apache Solr的主要查询参数，文档根据它们与此参数中的术语的相似性来评分。
fq 这个参数表示Apache Solr的过滤器查询，将结果集限制为与此过滤器匹配的文档。
start start参数表示页面的起始偏移量，此参数的默认值为0。
rows 这个参数表示每页要检索的文档的数量。此参数的默认值为10。
sort 这个参数指定由逗号分隔的字段列表，根据该列表对查询的结果进行排序。
fl 这个参数为结果集中的每个文档指定返回的字段列表。
wt 这个参数表示要查看响应结果的写入程序的类型。