意图识别_Query特征提取

【1】背景

1、Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Session期间变换了查询词,后续的搜索和点击均会被记录,知道脱了搜索。

理解:一个样本即Query和点击的Title

 

【2】的意图识别和传统的文本分类问题区别:

1、类别不完全互斥,即多标签。 eg:极品飞车属于游戏、电影类

2、样本分布不均衡:一、类别方面不均衡,vidio类别占总比例需求很大 二、热门样本query出现频率高

3、Query通常以短文本为主。Query通常极为精炼,特征比较稀疏。而Query有对应的点击title,充分挖掘两类文本之间的关系,对效果提升有很大帮助。

4、一些关系网:不同Query点击了相同的title、相同Query点击了不同title

【3】特征提取:

文本特征提取(余弦采用了分词工具分词)

  • 因为分词不一定准确 

改进:统计分词前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词

  • Ngram特征

1、double padding Tri-gram:加入句首和句尾结构信息

2、选择只在某一类出现的词(title/Query:百度经验)

3、TF-IDF

4、强化Query尾部和头部对权重:经验分类中query:怎么,如何

统计特征提取:

  • Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法

关系对利用:

  • Query和Title关系:

1、宏观:相同对Query对应Title进行合并,将合并的title作为特征补充/协同过滤推荐类别(基于相似性的方法分类)

2、微观:提取Query、Title公共子串

 

Query间关系

1、Session中,Query变换的部分Diff部分强烈表达意图

2、相关Query集合共现的部分,将相似Query信息作为该Query特征补充

3、生成Query的Family Tree(根据Query的包含关系),Query的亲属作为特征补充

  • title间关系:

类似Query间特征处理

语义特征提取

  • LDA

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值