自然语言处理
张雨石
程序猿,科幻迷,力求做一枚文青
展开
-
DIEN: 阿里点击率预估之深度兴趣进化网络
广告推荐算法系列文章:莫比乌斯: 百度的下一代query-ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN: 阿里点击率预估之深度兴趣网络基于Delaunay图的快速最大内积搜索算法DIEN: 阿里点击率预估之深度兴趣进化网络EBR: Facebook基于向量的检索阿里巴巴电商推荐之十亿级商品embeddingOverall这篇文章所介绍的模型,用于在用户没有输入搜索词来表达意图的时候,给用户推荐商品的场景。这里的收费方式一般是CPC,即Cost per Click,每次点击收原创 2020-10-28 11:17:26 · 1613 阅读 · 1 评论 -
Federated Learning: 问题与优化算法
工作原因,听到和使用Federated Learning框架很多,但是对框架内的算法和架构了解不够细致,特读论文以记之。这个系列计划要写的文章包括:Federated Learning: 问题与优化算法Federated Learning: 架构OverallFederated Learning, 中文翻译是联合学习,或者很多人翻译成联邦学习,是一种在移动端训练模型的框架。不知为何,翻译成联邦学习总让我有点笑场,就像one-hot编码被翻译成独热编码一样。难不成以后还有帝国学习,共和国学习原创 2020-10-20 17:06:30 · 2771 阅读 · 2 评论 -
Transformer优化之稀疏注意力
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-10-01 10:12:43 · 6766 阅读 · 1 评论 -
莫比乌斯: 百度的下一代query-ad匹配算法
本文介绍的内容来自于百度在KDD2019上的论文[1].众所周知,百度、头条乃至于Google、Facebook的主要营收点在广告。广告业务的成败关系着众多互联网公司的生死。由于广告存量的巨大,目前的需求是平均每次query需要从上亿的广告中筛选出相关的出来。因而目前百度现在的广告匹配算法采取三层结构:当用户进行查询的时候,跟Search类似,需要对query做后处理,包括query rewriting、query expansion和semantic matching。然后使用快速查询的算法在上原创 2020-09-29 00:11:25 · 683 阅读 · 0 评论 -
基于熵的回退语言模型剪枝
本论文中介绍了如何对语言模型进行剪枝,是该方面的经典论文,之前翻译的语言模型词典优化的论文中对抽取出的新词进行剪枝便用到了本论文中的思想。公式繁多,直接贴图了。大家有需要整个pdf的可以下载 原论文和翻译的pdf 。原文名:Entropy-based Pruning of Backoff Language Models原作者:Andreas Stolcke翻译 : 雨石翻译 2013-01-05 22:18:10 · 4079 阅读 · 3 评论 -
隐马尔科夫模型(HMM)及其扩展
转载请注明地址(http://blog.csdn.net/xinzhangyanxiang/article/details/8522078)学习概率的时候,大家一定都学过马尔科夫模型吧,当时就觉得很有意思,后来看了数学之美之隐马模型在自然语言处理中的应用后,看到隐马尔科夫模型竟然能有这么多的应用,并且取得了很好的成果,更觉的不可思议,特地深入学习了一下,这里总结出来。马尔科夫过程马原创 2013-01-20 14:59:07 · 37094 阅读 · 3 评论 -
EM算法笔记(a note on the EM algorithm)
本论文使用一个具体的实例讲解了EM算法的整体流程,非常详细。这里跟大家分享下。原作者:ChengXiang Zhai翻译: 雨石由于csdn博客上写公式不方便,故将翻译好的文档截图传到博客上,想下载翻译的整篇pdf的同学请 猛击这里 。翻译 2013-01-02 20:31:37 · 4473 阅读 · 0 评论 -
文本分类综述
之前一段时间弄过文本分类的事情,现在发个文总结一下。文本分类问题的定义是根据一篇文档的内容,从预定义的类别标号里选择相应的类别。中文文本分类的基本步骤是中文分词、特征提取、训练模型、预测类别等步骤,需要说明的是,基于统计的文本分类一般都需要有比较好的标注好的语料作为训练集,训练出模型,利用模型对未分类的文本进行分类。对中文文本的处理一个无法避免的步骤就是分词,中文不像英文那样,词与词之原创 2012-12-19 23:02:36 · 4836 阅读 · 0 评论