高德搜索技术

最新推荐文章于 2022-03-22 04:35:02 发布

Catherine_In_Data

最新推荐文章于 2022-03-22 04:35:02 发布

阅读量490

点赞数

分类专栏：搜索

本文链接：https://blog.csdn.net/zhouwenyuan1015/article/details/107014553

版权

搜索专栏收录该内容

7 篇文章

订阅专栏

本文探讨了机器学习在高德地图搜索建议服务中的应用，通过LTR和GBRank模型优化查询与建议的相关性，解决点击数据过拟合及特征稀疏问题，实现全剧误差最小化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自己整理关键知识点（还要再看一遍更新）：

文章名：机器学习在高德搜索建议中的应用优化实践
原文链接：https://mp.weixin.qq.com/s/D3qxlzZgwnMprzEVuMpmgg

背景
通过suggest服务：智能提示，降低用户输入成本。响应快，不承担复杂query的检索。目的是学习query与sugges的相关性。
模型
LTR, GBrank
建模遇到问题
样本构造&模型调优
基于用户对poi点击生成样本缺点：
1）点击过拟合，推荐面窄
2）点击不一定是用户真实满意度
3）只展示top10结果，更多结果没有机会展现，因此没有点击。
4）完整query检索不到，统计不到用户需求。
问题：无点击数据处理，特征系数行处理。稀疏特征被忽略，但中长尾case需要依赖这些特征。
目的：全剧误差最小化
样本构造
1）基本原理：用户连续搜做看作一个session。不是统计某个query下的点击，而是把session看作一个整体，用户在session最后点击行为，泛化到session中的所有query。
2）详细过程：
a. 数据融合： suggest点击，搜索点击，搜索导航
b . session切分：城市，uid，时间戳
c . session清洗：前缀一致，拼音一直，输入法转换。
d. 样本统计：用户输入人session中，末尾queryyou点击，则session中所有query都计算为有点击。
e。抽取线上上百万点击日志随机query，每个query召回前N个，基于上述样本构造方案，生成千万级别的有效样本作为gbrank。
注意：一个session包含多个query，末尾query对应10个poi，则session中多个query均有点击，因此样本百万变为千万。

Gbrank
样本构建: session划分，末尾query点击，则智能整个session点击。
模型调参:loss调整。基于两个样本特征差，修改loss负剃度。差异越大，负剃度越大。
稀疏特征提取，截图

文章名：深度学习在高德POI鲜活度提升中的演进
原文链接： https://mp.weixin.qq.com/s/ypU2_MkC9Ut7k3OYM8GLQg

1. 感悟
课程也会有过期，新技术。
为什么新人课程池和首页营销课程池分开。
最新课程给一定的top曝光量，领取率低，上课率低则降权。

2. poi过期特征挖掘
时间序列向量onehot ，如果最后一次人工核实存在月份标记为1，其他为0。如果人工不核实改动了，说明改课程快要过期了。

3. 过期挖掘模型
Rnn可变长度输入(不同poi创建时间不一样，则时间序列长度不一样。增加" 门"，创建时间之前的是0，之后的是1，增加时间序列的高可用性。)
RNN过期挖掘，LSTM加softmax预测过期概率。
头部过期挖掘。缺失值插补，头部默认为0。尾部采用，对应列值规范化后，加权插补。

4. 模型Wide&deep
Wide部分，属性，状态，类别。
首位标志位为1表示为缺失值，后面是onehot编码.生成高维稀疏向量。通过一层全链接网络降维。
deep部分：rnn变种，lstm, tcn, dual-lstm

DD WDR模型
https://www.kdd.org/kdd2018/accepted-papers/view/learning-to-estimate-the-travel-time