数学之美
xiaopihaierletian
这个作者很懒,什么都没留下…
展开
-
数学之美1
第1章 文字和语言vs数字和信息文字按照意思来聚类,最终回带来一些歧义。上下文建立的概率模型也会出现错误。罗塞塔石碑对自然语言处理的两点指导意义:1. 信息的冗余是信息安全的保障。2. 语言的数据,我们称之为语料,尤其是双语或者是多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础。最早的计数工具—斯威士兰的乐邦博古十原创 2016-10-28 19:17:24 · 591 阅读 · 0 评论 -
数学之美13--所有输入法基本原理之"马尔科夫链"的扩展——贝叶斯网络
1.贝叶斯网络 a.定义: 将相互交叉、错综复杂的事情的关系图描述为一个网络,每个圆圈代表一个状态(事情),圆圈间的连线为两者间的关系,假设马尔科夫假设成立,即每一个状态只和它直接相连的状态有关,和间接相连的状态没有直接关系,那么此网络成为贝叶斯网络 b.可信度:原创 2017-06-13 10:59:20 · 684 阅读 · 0 评论 -
数学之美12--布隆过滤器(BoomFilter)
布隆过滤器(BoomFilter)1.原理: a.解决的问题: 判断一个元素是否在一个集合中 b.Hash表的特点: i.快速准确,但是耗费存储空间 ii.先将url或者email转为8个字节的信息指纹,在考虑Hash50%的存储效率原创 2017-06-13 10:48:01 · 1285 阅读 · 0 评论 -
数学之美11--拼音输入法的数学原理
第21章 拼音输入法的数学原理1.输入法与编码: a.对汉字的编码分为两个部分: i.对拼音的编码 ii.对消除歧义的编码 b.拼音输入法的优势: i.不需要专门的学习 ii.输入自然,不会中断思维,即原创 2017-06-13 10:41:15 · 986 阅读 · 0 评论 -
数学之美9
第18张搜索引擎的反作弊问题1.反作弊的道和术问题: 术:根据看到的作弊的例子,去分析它,然后清除它 道:透过具体的作弊例子,找到作弊的动机和本质,从本质上解决问题 2.通信模型在反作弊中的应用: 通信解决噪音: i.从信息源出发,加强通信(编码)自身的原创 2017-06-12 18:54:46 · 277 阅读 · 0 评论 -
数学之美8
第16章 信息指纹及应用1. 信息指纹前面我们讲到,一段文字所包含的信息,就是它的信息熵。如果对这段信息进行无损压缩编码,理论上编码后的最短长度就是它的信息熵。当然,实际编码长度总是要略长于它的信息上的比特数。但是如果仅仅要区分两段文字或者图片,则元不需要那么长的编码。任何一段信息,都可以对应一个不太长的随机数,作为区别它和其他信息的指纹。将链接对应为16个原创 2016-10-29 12:45:17 · 509 阅读 · 0 评论 -
数学之美7
第14章 余弦定理和新闻的分类1. 新闻的特征向量对64000个汉字词进行编号,对应TF-IDF值,构成64000维的向量。2. 向量距离的度量两篇新闻的主题是否接近,取决于他们的特征向量长得像不像。利用向量的知识,计算两个向量之间的夹角来判断新闻主题的相似性。新闻的分类:(该方法准确信号,适原创 2016-10-29 12:18:19 · 415 阅读 · 0 评论 -
数学之美6
第12 章 有限状态机和动态规划:地图与本地搜索的核心技术1. 地址分析和有限状态机有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这个状态的有向弧。使用有限状态机识别地址,关键要解决的两个问题:1) 通过一些有效的地址建立状态机2) 给定一个有限状态机后,地址字串的匹配算法为了解决自然语言模糊问题,进行模糊匹配,提出基于概率原创 2016-10-28 21:41:55 · 473 阅读 · 0 评论 -
数学之美5
第10章 PageRank :Google的民主表决式网页排名技术搜索引擎的网页排序:网页的质量信息;查询与网页的相关性信息1. PageRank算法的原理核心思想:如果一个网页被很多其他网页所链接,说明他受到普遍的承认和信赖,那么它的排名就高(网页排名高的网站贡献的链接权重大)解决先有鸡蛋先有鸡的问题:二维矩阵相乘,并用迭代的方法解决了这个问题。原创 2016-10-28 21:28:51 · 398 阅读 · 0 评论 -
数学之美4
第7章 贾里尼克和现代语言处理第8章 简单之美:布尔代数和搜索引擎搜索引擎的原理:自动下载网页、建立有效的索引,公平准确的排序。道与术:事情的原理是道,具体的做事方法叫术。追求的术的人,一生工作辛苦,只有掌握道,才能游刃有余。追求术的人,往往是希望走捷径,希望有一个模型能把事情毕其功于一役,但这是不现实的。1. 布尔代数就原创 2016-10-28 21:10:21 · 273 阅读 · 0 评论 -
数学之美3
第5章 隐含马尔可夫模型到目前为止,它一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。1. 信息熵。如果一个信息有32中可能性,你至少需要多少次才能猜中?答案是通过二分法,至少log32=5次就可以猜中。5就是信息熵。 公式:H(x)=求和【-(P(x)*logP(x)】.原创 2016-10-28 20:06:15 · 500 阅读 · 0 评论 -
数学之美2
第3章 统计语言模型统计语言模型产生的初衷是为了解决语音识别问题。在语音识别中,计算机需要知道一个文字序列 是否能构成一个大家理解而且有意义的句子,然后显示或者打印给使用者。一个句子是否合理,就看他的可能性大小如何。至于可能性就用概率来衡量。句子S表示某一个有意义的句子,由一连串特性顺序排列的词w1,w2,...,wn组成,这里n是句子的长度。句子S发生的概率:原创 2016-10-28 19:43:39 · 1173 阅读 · 0 评论 -
数学之美10--模型的重要性以及最大熵模型
模型的重要性以及最大熵模型1.对于模型: i.一个正确的模型应当在形式上是简单的 ii.一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认为大方向是对的,就应该坚持下去 iii.大量准确的数据对研发很重要 iv.正确的模型受噪音的干扰,显得不准确,此时不应该用一原创 2017-06-12 19:08:13 · 469 阅读 · 0 评论