旅游搜索系统优化与策略-CSDN博客

本文链接：https://blog.csdn.net/zhouwenyuan1015/article/details/122856777

加深印象，待进一步更新…

1. 美团旅游搜索：

困难：
1）本异地差异大
2）搜索意图多样
3）底层脏数据多
完整搜索系统：检索召回，查询分析，智能排序和业务应用。以下重点，检索召回，查询分析
用户行为链条：搜索Query->点击搜索结果列表夜中的POI/Deal等->下单支付-> 消费–>计算消费收入。点击率链条太短，最终消费因素复杂。行为链条如下：
每搜索用户收入 = 点击用户数/搜索用户数 * 支付用户数/点击用户数 * 消费用户数/支付用户数 * 每用户消费收入
搜索评价指标：
1）访购率：支付用户数/搜索访问uv，即：点击用户数/搜索用户数 * 支付用户数/点击用户数。
2）点击率：点击PV/搜索pv(page view)。部分景点免费，用点击率作为辅助评价指标。
3）无结果率：无结果请求数/搜索请求数。衡量搜索召回质量的指标
4）用户满意度：产品经理定期人工测评。
如取搜索结果的前20条，如果单景点意图，对应的POI能排在首位，且无重复poi则1分。
搜索结果满足部分用户需求，存在误召回，排序不合理，0.5分。
完全不能满足用户旅游需求，结果没有有效信息则0分。
策略优化方向和思路，以case驱动为主策略迭代方法。（课堂上线后，可查看总提下降，以及各类别下降）
1）质量评估：定义满意度标准和评估体系，定期（月/季度）评估搜索满意度，【确定评估样本，了解Query需求分布、意图识别准召率、召回及排序情况】。
2）问题分析：对问题进行梳理分类，比如【无供给问题】、误召回问题、意图识别问题、POI排序问题、展示问题等，找出主要问题并明确优化方向。
3）项目开发：评估项目实施的可行性，制定相应的技术方案，配合产品、客户端等其他技术团队联调、测试。
4）实验迭代：上线A/B Testing验证优化效果，根据指标评估项目收益，效果正向则扩量，负向则分析调整或下线，并继续迭代优化。
query意图分类，针对不同意图使用不同召回。
景点，行政区域，品类，不相关，线路，其他旅行社，场景。每类意图展现多个类聚。每个类聚的召回检索策略不同。
【课堂： query意图分类：机构，老师名，品类（如温泉，python），知识点(类似景点，python skicit-learn)，不相关，其他。】
早起技术架构：单次请求只支持单策略检索，多次检索串行执行。
检索架构升级：串行执行变成基于状态机的调度执行。同时触发多个线路。
无结果优化
1）无结果原因分析。以及无结果优化可行性分析。
2）query表达方式：包含多余信息，多字，少字，错字。
丢词&查询改写
1）丢词策略：统计高频停用词，丢弃停用词。
2）纠错&同义词改写：统一session，共现频率高的查询对象作为候选，然后人工审核，加入同义词词典，查询时原queyr与同义词都查询，取并集。
3）二次召回
4）无结果推荐：无结果给用户提供另外选择
无合作POI召回：
1）评估指标导致的poi不能被召回。优化：可返回结果，虽然没有可售门票。
2）无供给：搜索反馈商户拓展人员上单流程。
3）召回策略问题导致：丢词有限。后期基于模型进行二次丢词。
粗排序改进
除了Query分析、检索策略外，粗排序是搜索召回的另一个核心功能。当搜索结果较多时，如果粗排序不合理，会导致部分优质POI或Deal无法召回，并且这些case不好人工干预。因此我们在2016年Q3启动了粗排序的改进工作，主要包括： * 距离分分段：计算客户端选择城市中心和POI的距离，若距离>=300KM，则距离分为0，300KM以内距离越近，得分越高。另外当搜索品类意图时，加大距离分的权重，比如东莞用户更希望去东莞附近的温泉（东莞本地温泉较少），而不是北京的。 * 综合评价数和评分：早期评价数和评分是线性加权，会出现部分冷门POI评价人数较少但评分较高的情况，因此考虑评分的置信度，评价数越多，置信度越高，总体评分越高。 * 新单销量平滑：新单或新POI由于上线时间较短销量一般不高，因此对据当前日期一段时间内上线的产品会赋予默认销量，并考虑时间衰减。 * 各因子相乘：文本相关性、距离、评价、销量这些因子维度差异较大，线性加权的权重不好设定，改成相乘，会使各因子的影响更为显著。