自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

G.T@CSDN程序志

够了,让我们实践吧!

  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

在ejabberd中使用MySQL

Ejabberd对Mysql和PostgreSQL提供天然的扩展支持,下文将简要说下在linux和windows下对Mysql的支持. 一,MySQL准备工作 1,添加一个用户 mysql> GRANT ALL ON ejabberd.* TO 'ejabberd'@'<EJABBERD_IP>' IDENTIFIED BY '<PASSWORD&g...

2009-12-21 15:12:13 129

在windows中配置Erlang+Emacs+Distel环境及注意事项

      最近系统的在学习Erlang,需要在Windows下配置一个开发环境,中间遇到了些小问题,现简单将过程总结下,红色说明部分为注意事项:-) 1,下载相应的软件。    Erlang R1303: 点击下载 Distel-4.03: 点击下载 Emacs 22.3 : 点击下载 2,安装Erlang,解压Emacs、Disttel到相关目录,下面是我的本机的安装目录。 Erlang的安装...

2009-12-17 19:35:36 241

原创 推荐本书

         对于搜索技术的学习,资料的确不多,这是前阵子看的一本书> Jeff Heaton写的,国内有中文版的,电子工业出的,叫网络机器人Java编程指南>>。下载地址:中文版  英文版书中的资源可以在作者的blog里面下载,或者留个邮件,可以发给你,特别是他写的一个bot的jar包挺有学习价值的。enjoy~

2007-07-23 10:13:00 976

转载 数学之美系列十五:繁与简 自然语言处理的几位精英

我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样的人。柯林斯:追求完美 柯林斯从师于自然语言处理大师马库斯 (Mitch M

2007-07-03 13:00:00 904

转载 数学之美系列之十四:谈谈数学模型的重要性

[注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及,并且在古巴比伦时,人们就观测到了五大行星(金、木、水、火、土)运行的轨迹,以及行星

2007-07-03 12:59:00 1225

转载 数学之美系列之十三:信息指纹及其应用

 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接存储网址,既费内存空间,又浪费查找时

2007-07-03 12:58:00 841

转载 数学之美系列之十二:余弦定理和新闻的分类

 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新

2007-07-03 12:55:00 920

转载 数学之美系列之十一:Google阿卡47的制造者阿米特.辛格博士

 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为,在计算机中一个好的算法,应该向阿卡 47 冲锋枪那样简单、有效、可靠性好而且容易读懂

2007-07-03 12:54:00 1291

转载 数学之美系列之十:有限状态机和地址识别

 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上图中,当前的状态是“省”,如果遇到

2007-07-03 12:52:00 1111

转载 数学之美系列之九:如何确定网页和查询的相关性

 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜

2007-07-03 12:50:00 1092

转载 数学之美系列之八:贾里尼克的故事和现代语言处理

读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学(私

2007-07-03 12:37:00 948

转载 数学之美系列之七:信息论在信息处理中的应用

 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测

2007-07-03 12:35:00 1053

转载 数学之美系列之六:图论和网络爬虫

[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市

2007-07-03 12:32:00 1004

转载 数学之美系列之五:简单之美--布尔代数和搜索引擎的索引

[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何

2007-07-03 12:27:00 733

转载 数学之美系列之四:怎样度量信息?

前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们

2007-07-03 12:25:00 774

转载 数学之美系列之三:隐含马尔可夫模型在语言处理中的应用

 前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、

2007-07-03 12:23:00 680

转载 数学之美系列之二:谈谈中文分词

       上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。用 “

2007-07-03 12:21:00 781

转载 数学之美系列之一:统计语言模型

前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Language Models)Google

2007-07-03 12:19:00 947

转载 软件项目版本号的命名规则及格式

  版本控制比较普遍的 3 种命名格式 :一、GNU 风格的版本号命名格式 :主版本号 . 子版本号 [. 修正版本号 [. 编译版本号 ]]Major_Version_Number.Minor_Version_Number[.Revision_Number[.Build_Number]]示例 : 1.2.1, 2.0, 5.0.0 build-13124二、Windows 风格的版本号命名格

2007-06-12 12:24:00 1075

原创 程序员专用洗洁精or沐浴露?

       程序员用的洗洁精,又或者是沐浴露,记住,是产自芬兰linux和美利坚的微软~~~不知道这瓶linux会不会是免费的?是就不错咯~~        PS:但愿这瓶micro&soft不要1998块这么贵~~

2007-06-09 10:01:00 1525

转载 网络蜘蛛的秘密

    经常去雅虎、搜狐等网站搜索信息的读者一定有这样的疑问:如此庞大的网页信息,到底是如何被这些网站所收集到的呢?难道都是人工登记并整理的吗?当然不是。这些搜索引擎能够快速地找到如此之多的信息,和网络蜘蛛的应用是分不开的。  网络蜘蛛可以算得上是为Internet而开发的最有用处的工具之一。时至今日,要想从以千万计的各不相同的站点中获取信息,舍网络蜘蛛之外,焉有他哉?  一个典型的网络蜘蛛(

2007-06-07 20:50:00 1060

转载 搜索引擎中网络爬虫的设计分析

多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】 网

2007-06-07 20:31:00 904

转载 Nutch搜索引擎分析

21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。    Nutch是开

2007-06-07 20:26:00 1051

转载 从Larbin看互联网爬虫设计

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫,首先需要考虑的效率。对于网络

2007-06-07 20:16:00 869

正则表达式测试工具

一个正则表达式测试工具

2007-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除