意图识别_Query特征提取

最新推荐文章于 2024-08-27 14:46:31 发布

花半夏

最新推荐文章于 2024-08-27 14:46:31 发布

阅读量1.6k

点赞数 1

分类专栏：搜索

搜索专栏收录该内容

8 篇文章 1 订阅

订阅专栏

【1】背景

1、Search_Session：用户与搜索引擎的一次完整的过程。信息包括：Session期间变换了查询词，后续的搜索和点击均会被记录，知道脱了搜索。

理解：一个样本即Query和点击的Title

【2】的意图识别和传统的文本分类问题区别：

1、类别不完全互斥，即多标签。 eg：极品飞车属于游戏、电影类

2、样本分布不均衡：一、类别方面不均衡，vidio类别占总比例需求很大二、热门样本query出现频率高

3、Query通常以短文本为主。Query通常极为精炼，特征比较稀疏。而Query有对应的点击title，充分挖掘两类文本之间的关系，对效果提升有很大帮助。

4、一些关系网：不同Query点击了相同的title、相同Query点击了不同title

【3】特征提取：

文本特征提取（余弦采用了分词工具分词）

因为分词不一定准确

改进：统计分词前后word的分布概率，通过P（pre_word|word）等合并成词概率高的词

Ngram特征

1、double padding Tri-gram:加入句首和句尾结构信息

2、选择只在某一类出现的词（title/Query:百度经验）

3、TF-IDF

4、强化Query尾部和头部对权重：经验分类中query：怎么，如何

统计特征提取：

Query长度、Query频次、BM-25：用来评价搜索词和结果之间相关性的算法

关系对利用：

Query和Title关系：

1、宏观：相同对Query对应Title进行合并，将合并的title作为特征补充/协同过滤推荐类别（基于相似性的方法分类）

2、微观：提取Query、Title公共子串

Query间关系

1、Session中，Query变换的部分Diff部分强烈表达意图

2、相关Query集合共现的部分，将相似Query信息作为该Query特征补充

3、生成Query的Family Tree（根据Query的包含关系），Query的亲属作为特征补充

title间关系：

类似Query间特征处理

语义特征提取

LDA

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。