【1】背景
1、Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Session期间变换了查询词,后续的搜索和点击均会被记录,知道脱了搜索。
理解:一个样本即Query和点击的Title
【2】的意图识别和传统的文本分类问题区别:
1、类别不完全互斥,即多标签。 eg:极品飞车属于游戏、电影类
2、样本分布不均衡:一、类别方面不均衡,vidio类别占总比例需求很大 二、热门样本query出现频率高
3、Query通常以短文本为主。Query通常极为精炼,特征比较稀疏。而Query有对应的点击title,充分挖掘两类文本之间的关系,对效果提升有很大帮助。
4、一些关系网:不同Query点击了相同的title、相同Query点击了不同title
【3】特征提取:
文本特征提取(余弦采用了分词工具分词)
- 因为分词不一定准确
改进:统计分词前后word的分布概率,通过P(pre_word|word)等合并成词概率高的词
- Ngram特征
1、double padding Tri-gram:加入句首和句尾结构信息
2、选择只在某一类出现的词(title/Query:百度经验)
3、TF-IDF
4、强化Query尾部和头部对权重:经验分类中query:怎么,如何
统计特征提取:
- Query长度、Query频次、BM-25:用来评价搜索词和结果之间相关性的算法
关系对利用:
- Query和Title关系:
1、宏观:相同对Query对应Title进行合并,将合并的title作为特征补充/协同过滤推荐类别(基于相似性的方法分类)
2、微观:提取Query、Title公共子串
Query间关系
1、Session中,Query变换的部分Diff部分强烈表达意图
2、相关Query集合共现的部分,将相似Query信息作为该Query特征补充
3、生成Query的Family Tree(根据Query的包含关系),Query的亲属作为特征补充
- title间关系:
类似Query间特征处理
语义特征提取
- LDA