搜索排序引擎 - 行业方案
文章平均质量分 91
搜索排序引擎 - 行业方案
文晓武
专注搜索推荐问答推荐工程领域,涉及到的技术有:Java、ElasticSearch、SpringBoot、SpringCloud、Dubbo、Linux、Docker、Sql、Kafka、RabbitMQ、RocketMQ、MyBatis、XXl-Job、Zookeeper、Nginx、Redis、Tomcat、Git、SVN、Maven、K8S等,每周不定期更新精华文章!
展开
-
微信全文搜索技术优化
全文搜索是使用倒排索引进行搜索的一种搜索方式。倒排索引也称为反向索引,是指对输入的内容中的每个建立一个索引,索引中保存了这个在内容中的具体位置。全文搜索技术主要应用在对大量文本内容进行搜索的场景。微信终端涉及到大量文本搜索的业务场景主要包括联系人、聊天记录、收藏的搜索。这些搜索功能从 2014 年上线至今,已经多年没有更新底层搜索技术,聊天记录使用的全文搜索引擎还是 SQLite FTS3,而现在已经有 SQLite FTS5,收藏首页的搜索还是使用简单的语句去匹配文本,联系人搜索甚至用的是内存搜索(在内存转载 2022-06-23 16:28:07 · 506 阅读 · 0 评论 -
百度搜索稳定性问题分析的故事
导读:百度搜索系统是百度历史最悠久、规模最大并且对其的使用已经植根在大家日常生活中的系统。坊间有一种有趣的做法:很多人通过打开百度搜索来验证自己的网络是不是通畅的。这种做法说明百度搜索系统在大家心目中是“稳定”的代表,且事实确是如此。百度搜索系统为什么具有如此高的可用性?背后使用了哪些技术?以往的技术文章鲜有介绍。本文立足于大家所熟悉的百度搜索系统本身,为大家介绍其可用性治理中关于“稳定性问题分析”方面使用的精细技术,以历史为线索,介绍稳定性问题分析过程中的困厄之境、破局之道、创新之法。希望给读者带来一些启转载 2022-06-23 16:17:24 · 254 阅读 · 0 评论 -
阿里巴巴复杂搜索系统的可靠性优化之路 v2019
搜索引擎是电商平台成交链路的核心环节,搜索引擎的高可用直接影响成交效率。闲鱼搜索引擎作为闲鱼关键系统,复杂度和系统体量都非常高,再加上闲鱼所有导购场景都依靠搜索赋能,搜索服务的稳定可靠成为了闲鱼大部分业务场景可用能力的衡量标准;如何保障搜索服务的稳定和高可用成为了极大的挑战。闲鱼搜索作为闲鱼核心系统,有以下几个突出的特点: * 数据体量大:对接闲鱼数十亿的商品,引擎有效商品数亿; * 索引庞大:闲鱼非结构化商品需要与算法团队合作,预测抽取有价值的结构化信息,建立索引;已创建数百的索引字段,整个引擎索引数据量转载 2022-06-20 21:02:01 · 430 阅读 · 0 评论 -
复杂系统如何在不停机升级同时保持稳定?by闲鱼技术
在互联网行业,线上服务的升级更新可谓家常便饭。据统计,在过去的一个季度中闲鱼工程师们执行了千余次发布,总计更新的代码数量超过百万行。这些发布中,有一些可能只更新了几行代码,而有一些可能执行了整个集群的迁移升级。而无论这些变更的影响面有多大,我们都必须保证线上服务的可用性,用户无感知。本文将以闲鱼搜索服务的迁移升级为例,向大家介绍其背后的技术方案。闲鱼的底层搜索服务由查询规划服务 Search Planner、查询理解服务 Query Planner、打分排序服务 Rank Service 以及搜索引擎 He转载 2022-06-20 20:56:48 · 608 阅读 · 0 评论 -
阿里集团搜索和推荐关于效率&稳定性的思考和实践
云栖君导读:本文分享了阿里集团从业务效率、资源效率、稳定性三方面来打造了TPP、Tisplus、OpenSearch三大搜索和推荐平台,通过调度系统、管控、高可用分布式服务框架、多机房容灾等手段,实现在不影响业务迭代效率情况下达到4个9的可用性、以及重大故障在5min内快速恢复。背景效率和稳定性是我们从工程层面来衡量系统对业务支持能力的两个关键指标。从流程管控上来看,业务效率的提升一定程度上会影响到稳定性,而对稳定性要求过高又会带来对业务效率的影响。从业务的角度来看,成熟的业务会更偏向于稳定性,而新业务更偏转载 2022-06-20 20:54:27 · 736 阅读 · 0 评论 -
稳定性与高可用保障的工作思路
稳定性与高可用性是老生常谈的两个词。凭借经验和感受我们知道,提高系统的这两项指标,系统会更加健康,产品也会有更好的用户体验。但是如果要给稳定性和高可用性下一个定义该如何表述?稳定性和高可用性这二者又有何区别和联系?我认为首先要理解好这两个问题,才能够设定清晰的目标,系统地制定完整可行的方案。在维基百科上搜索稳定性,定义如下:再看看高可用性的:首先从稳定性的定义中提炼出关键的词语 -- 系统、输入、输出。在蚂蚁当下的技术架构中,可以把一个应用当做系统,应用之间的服务请求为输入,服务响应为输出,当服务响应符合预转载 2022-06-20 20:46:35 · 209 阅读 · 0 评论 -
查询耗时降低2/3,携程度假搜索引擎架构优化 v2020
作者简介少伟,负责度假起价、搜索的研发工作,资深技术控。锦涛,负责度假搜索及相关子系统的建设,对搜索引擎、NLP等有浓厚兴趣。携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、邮轮、游学、主题游等),是一个典型的O2O搜索引擎(Online To Offline)。本文将分享度假搜索引擎的优化过程及相关思路,希望可以给公司同类项目以及行业同类需求提供一些启发和借鉴。主要业务范围:团队游、自由行、游学、主题游、玩乐转载 2022-06-20 20:06:05 · 219 阅读 · 0 评论 -
阿里巴巴搜索引擎平台Ha3揭秘
Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。Ha3是搜索体系中的在线部分,在其系统内部,包含Qrs(Query result searcher)和Searcher两种基本的角色。Qrs用于接收用户查询,将用户查询分发给Searcher,收集Searcher返回的结果作整合,最终返回给用户,这里的用户既指直接通过http请求查询引擎的自然人,也指Ha3的上游服务,如sp(搜索链路的Ha3上游服务)和tpp(推荐链路的Ha3上游服务)。Searcher是转载 2022-06-15 11:58:12 · 1216 阅读 · 1 评论 -
亿级搜索系统(优酷视频搜索)的基石,如何保障实时数据质量?v2020
优酷视频搜索是文娱分发场的最核心入口之一,数据源多、业务逻辑复杂,尤其是实时系统的质量保障是一个巨大挑战。如何保障数据质量,如何衡量数据变化对业务的影响?本文会做详细解答。搜索数据流程如下图所示,从内容生产到生成索引经历了复杂的数据处理流程,中间表多达千余张,实时数据消费即消失,难以追踪和复现。从上图可以看出,整个系统以实时流模式为数据流通主体,业务层面按实体类型打平,入口统一分层解耦,极大的增加了业务的实时性和稳定性。但是另一方面,这种庞大的流式计算和数据业务系统给质量保障带来了巨大的挑战,从0到1建设实转载 2022-06-09 19:44:42 · 219 阅读 · 0 评论 -
浅谈有赞搜索质量保障体系 v2021
有赞搜索中台的前身是ES中间件,并没有一个中台的概念,相应的就会有一个问题,业务接入搜索场景的时候还需要为此投入开发资源同步搜索设计,一个需求上线往往耗时很久,重复性工作较多,所以就有了后来的搜索中台的成立,将搜索完整链路的复杂性折叠成一个简单完整的搜索产品,让业务方直击搜索需求,无需费心搜索实现;在此前提下,如何针对搜索中台进行一个从0到1的完整的质量保障也是一个挑战,且中台面临的问题可能跟传统业务面临的不大一样,保障手段也需要更多样化。目前搜索业务架构如下图所示,笼统的说可以分两层:最上面一层协同网络效转载 2022-06-09 19:07:47 · 284 阅读 · 0 评论 -
算法平台在线服务体系的演进与实践(v2021-05-13)
目录0. 写在前面1.图灵平台介绍2. 图灵OS的建设背景3. 图灵OS 1.03.1 图灵OS 1.0介绍3.2 图灵OS 1.0遗留问题4. 图灵OS 2.04.1 标准化轻量级SDK4.2 算法插件化4.3 数据通道4.4 算法编排4.5 多模式集成4.6 图灵沙箱4.7 统一回放平台4.8 性能压测及调优5. 图灵OS 2.0建设成果5.1 算法研发流程5.2 图灵OS 2.0使用汇总6. 总结及未来展望7. 作者简介.转载 2022-04-25 07:58:36 · 1104 阅读 · 0 评论 -
马蜂窝推荐排序算法模型是如何实现快速迭代的(v2019-11-07)
Part.1 马蜂窝推荐系统架构马蜂窝推荐系统主要由召回(Match)、排序(Rank)、重排序(Rerank)几个部分组成,整体架构图如下:在召回阶段,系统会从海量的内容库筛选出符合用户偏好的候选集(百级、千级);排序阶段在此基础上,基于特定的优化目标(如点击率)对候选集内容进行更加精准的计算和选择,为每一条内容进行精确打分,进而从候选集的成百上千条内容中选出用户最感兴趣的少量高质量内容。本文我们将重点介绍马蜂窝推荐系统中的核心之一——排序算法平台,它的整体架构如何;为了给用户呈现更加精准转载 2022-04-25 07:40:53 · 216 阅读 · 0 评论 -
10年+,阿里沉淀出怎样的搜索引擎?(v2019-09-24)
一、整体架构搜索引擎分为数据源聚合(俗称dump)、全量/增量/实时索引构建及在线服务等部分,以Tisplus为入口经由Bahamut(Maat进行工作流调度)->Blink->Hdfs/Swift->BuildService->Ha3->SP->SW等阶段对客户提供高可用/高性能的搜索服务。其中数据源聚合在tisplus平台和Blink平台完成,Build service和Ha3在suez平台完成,SP和SW通过drogo进行部署。具体架构图如下:二、Tis转载 2022-04-02 07:57:40 · 530 阅读 · 0 评论 -
美团搜索中查询改写技术的探索与实践(v2022-02-17)
目录1. 引言2. 背景与挑战2.1 美团搜索场景下查询改写信号的使用方式2.2美团搜索场景下查询改写信号的难点和挑战3. 技术选型3.1 原始语料挖掘3.2 语义判别模型3.3 在线服务3.4 查询改写服务能力平台化4. 总结与展望5. 作者简介1. 引言在搜索场景中,由于用户搜索词Query和检索文本Document之间存在大量表述不一的情况,在文本检索框架下,此类文本不匹配导致的漏召回问题严重影响着用户的体验。对这类问题业界一般有两种方案:用户端拓.转载 2022-04-02 07:25:35 · 758 阅读 · 0 评论 -
阿里飞猪个性化搜索排序探索实践(v2021-06-12)
导读:旅行类商品(如机票、火车票、汽车票 ) 相对实物电商更加标品,用户决策因素更加单一,而行业内大多基于简单规则排序,如时间、价格或业务逻辑加权,难以满足用户的个性化出行需求。飞猪在过去一段时间中,不断探索交通搜索个性化排序技术,本次阿里飞猪的素数老师将围绕智能交通导购,对交通个性化搜索排序技术的实践与创新做详细分享。主要内容包括: 背景:交通业务介绍 挑战:交通出行业务特殊性 解法:从业务规则到个性化排序模型 效果:模型优化迭代结果 总结:进一步优化...转载 2022-04-02 07:15:59 · 381 阅读 · 0 评论 -
阿里飞猪搜索技术的应用与创新(v2021-02-03)
分享嘉宾:林睿 阿里飞猪编辑整理:杜正海、Hoh出品平台:DataFunTalk导读:旅行场景的搜索起初是为了满足用户某种特定的强需求而出现的,如机票、火车票、酒店等搜索。这些需求有着各自不同的特点,传统的旅行搜索往往会对不同业务进行定制化搜索策略。随着人工智能技术的不断发展,用户对产品的易用性提出了更高的要求。旅行场景的搜索逐渐发展为一个拥有旅行定制搜索策略的全文检索引擎。本文将为大家介绍阿里飞猪在旅行场景下搜索技术的应用与创新,主要内容包括: 猪搜背景 基础建设 召转载 2022-04-02 05:11:22 · 485 阅读 · 0 评论 -
日均5亿查询量的京东到家订单中心,为什么舍MySQL用ES?(v2019-12-07)
作者介绍张sir,京东到家研发工程师,主要负责订单中心、商家中心、计费等系统。京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。我们把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查询是不可取的。同时对于一些复杂的查询,MySQL支持得不够友好,所以订单中心系统使用了Elasticsearch来承载订单查询的主要压力。Elasticsearch作为一款功能强大的分布式搜索引擎,支持近实转载 2022-02-26 14:55:29 · 271 阅读 · 0 评论