![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
nlp相关知识
不困先生说
这个作者很懒,什么都没留下…
展开
-
传统文本相似度算法
TF-IDFTF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中TF指的是某词在文章中出现的总次数,该指标通常会被归一化定义为:tfi,j=ni,j∑knk,jtf_{i,j} = \frac{n_{i,j}}{\sum原创 2020-12-01 10:05:56 · 435 阅读 · 0 评论 -
每周论文速递之1——不讲究顺序的序列推荐
今天带来的两篇论文是关于Sequential/Session推荐的,2015年的神作《GRU4REC:Session-based Recommendations with Recurrent Neural Networks》开启了基于用户历史行为的序列化建模的热潮,将用户历史行为通过RNN进行建模。但是这种自左向右的序列推荐算法限制了用户历史信息的发挥,RNN有顺序的,而这种顺序性的假设,对于实际生活中的用户行为并不适用。举个例子,我们今天可能会买笔记本电脑、耳机、机械键盘,但这三样东西的购买顺序完全可以原创 2020-09-01 13:59:23 · 296 阅读 · 0 评论 -
BERT,ELMO,ERNIE与GPT
ELMOELMO是Embeddings from Language Model的简称。它是一个双向的RNN网络,这样每一个单词都对应两个hidden state,进行拼接便可以得到单词的Embedding表示。当同一个单词上下文不一样,得到的embedding就不同。当然,我们也可以搞更多层。这么多层的RNN,内部每一层输出都是单词的一个表示,那我们取哪一层的输出来代表单词的embeddin...原创 2020-01-19 10:09:47 · 811 阅读 · 0 评论