![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数学之美
xiaohang20103
这个作者很懒,什么都没留下…
展开
-
数学之美系列三:隐含马尔可夫模型在语言处理中的应用
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、转载 2013-07-08 16:52:57 · 616 阅读 · 0 评论 -
数学之美十四:谈谈数学模型的重要性
[注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及,并且在古巴比伦时,人们就观测到了五大行星(金、木、水、火、土)运行的轨迹,转载 2013-07-09 09:35:07 · 773 阅读 · 0 评论 -
数学之美系列一:统计语言模型
http://www.kuqin.com/math/20071204/2798.html系列一: 统计语言模型 (Statistical Language Models)Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这转载 2013-07-08 16:10:25 · 747 阅读 · 0 评论 -
数学之美系列七:信息论在信息处理中的应用
我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但转载 2013-07-08 20:34:36 · 656 阅读 · 0 评论 -
数学之美系列四:怎样度量信息?
信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有翻译 2013-07-08 17:06:27 · 601 阅读 · 0 评论 -
数学之美系列二:谈谈中文分词
数学之美系列二:谈谈中文分词 一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词-----统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需转载 2013-07-08 16:34:07 · 954 阅读 · 0 评论 -
数学之美系列二十一:布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash转载 2013-07-09 11:21:17 · 680 阅读 · 0 评论 -
数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的转载 2013-07-09 10:31:48 · 672 阅读 · 0 评论 -
数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
当然,学过信息论的人都知道,只要多截获一些情报,统计一下字母的频率,就可以解破出这种密码。柯蓝道尔在他的“福尔摩斯探案集”中“跳舞的小人”的故事里已经介绍了这种小技巧。在很长时间里,人们试图找到一些好的编码方法使得解密者无法从密码中统计出明码的统计信息,但是,基本上靠经验。有经验的编码者会把常用的词对应成多个密码, 使得破译者很难统计出任何规律。比如,如果将汉语中的“是”一词对应于唯一一个编码转载 2013-07-09 10:41:54 · 1366 阅读 · 0 评论 -
数学之美系列六:图论和网络爬虫 (Web Crawlers)
[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣转载 2013-07-08 20:27:38 · 909 阅读 · 0 评论 -
MBA最全的面试训练
1.肖伯纳的名言:“你有一个苹果,我有一个苹果,你和我交换以后每人只有1个苹果,你有一个思想,我有一个思想,我们交换之后各自有两个思想。”谈谈你对这句话的看法。这句话体现了知识经济时代知识与信息的重要性和特殊性,思想的交换能产生乘数效应,不同思想的交换更能激发创新,新经济条件下应该鼓励。但要具备鉴别好坏的能力。 2.谈谈你对航空公司机票打折的利与弊的看法。 利:消费者受益,促使转载 2013-07-14 21:42:06 · 539 阅读 · 0 评论