![](https://img-blog.csdnimg.cn/fb414cf44e9542c992cef6589396820b.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
《文本上的算法——深入浅出自然语言处理》读书笔记
文章平均质量分 86
自然语言处理
非文的NLP修炼笔记
研究生在读,NLP小白一枚,希望大家多多指教~
展开
-
带着问题去思考
这周读完了《文本上的算法——深入浅出自然语言处理》,书中最后的一些话与大家分享:对于人工智能来说,作者感觉现在的理念就是“计算即智能”,依靠许多数据,进而依靠机器的高性能来训练模型,目前基于图灵机的计算机是一套明确的确定的人为设定的编码规则,所以只要是明确需要计算量的单一任务计算机解决是迟早的事,因此许多单一任务组合成让人类更方便的产品(可称为“浅层智能”)在可预见的未来是可以做好的。但是任何进步都是从量变到质变的过程,所以要想达到这种浅层智能,也必须要经过基础产业升级(基础科学、基础通讯、基础硬原创 2022-03-23 10:18:48 · 278 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第8章 理解语言有多难
第8章 理解语言有多难8.1 自然语言处理自然语言处理的目的就是让计算机能处理语言,说简单点,就是让计算机听懂人话。计算机想处理语言,必须先分析语句和获得语义,这就需要分析词的词性、句子的句法规则等。最著名的成果就是乔姆斯基用有限状态自动机来刻画语言的语法,建立了自然语言的有限状态模型。理想的NLP处理流程最底层是词法分析,包括分词、词性标注、专名识别等。然后是句法分析,得到一个句法树,相当于获得了更多的词或短语之间的关系;之后是语义分析,会得到整个句子的逻辑关系;最后就是应用,比如原创 2022-03-23 09:11:04 · 286 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第7章 如何让机器猜得更准
第7章 如何让机器猜得更准从获得信息的角度来说,搜索引擎是用户主动获取信息的方式,推荐系统则是被动地向用户呈现信息的方式,所以说推荐系统在一定程度上提升了用户获取信息的效率。推荐系统一定是给某个“用户”推荐了某些“物品”,所以“用户”和“物品”就是推荐系统中的两个关键,根据对这两个点的不同定位就会产生不同的算法。因为推荐的物品会有很大区别,所以推荐系统并没有搜索系统那样一个清晰的架构流程,大致来说,推荐系统使用最多的有如下两类方法:基于协同过滤的推荐算法;基于内容的推荐算法。7.1原创 2022-03-21 08:45:56 · 170 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第6章 搜索引擎是什么玩意儿
第6章 搜索引擎是什么玩意儿6.1 搜索引擎原理假设Q为用户要查询的关键词(Query);为所有网页集合中第i个网页,就表示给定一个Q,第i个网页满足了用户需求的概率,那么搜索引擎干的事就是根据用户的输入Query,在所有的网页集合中计算,并排序返回给用户。使用贝叶斯公式由于右边式子中的不好计算,所以对它进行了变形,例如这个式子是有前提的,就是认为之间相互独立,这是个假设。换句话说,右边式子要想能计算必须在某个假设下,假设意味着和实际是有区别的,所以得有个方法来修正不在假设范围内原创 2022-03-20 15:47:24 · 784 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第5章 你要知道的一些术语
目录第5章 你要知道的一些术语5.1 tf/df/idf5.2 IG/CHI/MI5.3 PageRank5.4 相似度计算第5章 你要知道的一些术语5.1 tf/df/idf我们一般说tf、df、idf都是指某个词的tf、df、idf,也可以说这三个术语是词的属性。tf就是词频,它的全称是term frequency,就是某个词出现的次数,出现几次,该词的tf就是几。它一般表示的是一个词的局部信息。df就是文档频率,它的全程就是document frequenc原创 2022-03-17 10:01:06 · 1623 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第4章 如何计算得更快
第4章 如何计算得更快随着数据量的爆炸式增长,如何存储和计算海量数据就成了一个问题,所以解决这个问题的分布式系统逐渐成为目前必不可少的技术之一。而线上业务怎么更好更快地完成用户请求,这个问题也是很重要的。4.1 程序优化...原创 2022-03-16 22:32:27 · 2156 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第3章 让机器人可以像人一样学习
第3章 让机器人可以像人一样学习3.1 何谓机器学习机器学习的核心就是特征、模型和训练样本(标注数据或未标注数据)。线下训练模型的时候,首先要对训练样本抽取特征,然后训练出一个机器学习模型(模型的结构和参数)来,线上预测的时候也是提取特征,然后用训练好的模型预测输出值。训练样本趋于无穷多时,模型训练得虽好,但是现实中拿到更多的训练样本代价太大,再加上特征表示和模型本身都不会是最优的,所以机器学习一般得到的都是近似解。不同的机器学习任务需要不同的特征和模型,有的问题模型是可以通用的(比如分类.原创 2022-03-15 10:33:31 · 1488 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第2章 我们生活在一个寻求最优解的世界里
目录第2章:我们生活在一个寻求最优解的世界里2.1 最优化问题2.2 最大似然估计/最大后验估计2.3 梯度下降法第2章:我们生活在一个寻求最优解的世界里2.1 最优化问题科学抽象于生活,科学服务于生活。几乎每个机器学习问题背后都是一个最优化问题。一般的最优化形式表示如下:f(x)是目标函数,h(x)和g(x)分别是约束条件,有的问题可以没有约束条件:只有f(x),称为无约束优化;只有f(x)和h(x),称为有等式约束优化;f(x)和h(x)、g(x)都有,称为有不等原创 2022-03-11 11:01:10 · 1430 阅读 · 0 评论 -
《文本上的算法——深入浅出自然语言处理》读书笔记:第1章 一些基础知识
目录第1章 你必须知道的一些基础知识1.1 概率论1.2 信息论1.3 贝叶斯法则第1章 你必须知道的一些基础知识1.1 概率论概率就是描述一个事件发生的可能性。大数定理:当试验次数(样本)足够多的时候,事件出现的频率无限接近于该事件真实发生的概率。假如我们用概率函数来表示随机变量的概率分布,那么就要满足如下两个特性:联合概率表示两个事件共同发生的概率。假如两个事件相互独立,那么就有联合概率。条件概率是指在已知事件x发生的情况下,事件y发生的概率,。概原创 2022-03-10 16:37:46 · 285 阅读 · 0 评论