搜索引擎
文章平均质量分 70
zvane
相不帅,个不高,语不善,性温和,人诚实。学Linux,Java,C ,文本分类,网页分类,机器学习。喜上网,听歌,电影,小说(尤黑色幽默类),竞技游戏,好乒乓,羽毛,郊游。
展开
-
基于个性化信息服务技术的研究
基于个性化信息服务技术的研究 黄 堃,林旭云 (福建金融职业技术学院,福建 福州 350007) 【摘 要】传统信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,个性化搜索引擎技术就显得越来越重要。文章主要介绍了个性化搜索引擎技术的研究现状,并讨论了个性化搜索引擎技术将来的研究方向。 【关键词】信息检索;个性化;搜索引擎 【中图分类号转载 2006-11-07 22:07:00 · 1265 阅读 · 0 评论 -
什么是垂直搜索?
什么是垂直搜索?[原创]http://www.fullsearcher.com/中文全文检索网 2006-1-3 14:14:31 sigz 关键词:垂直搜索引擎 垂直搜索 原创文章,无版权,可以任意转载,但是转载必须完整转载全文、url和内部解释性链接。 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的转载 2007-03-28 22:12:00 · 2570 阅读 · 0 评论 -
如何做好一个垂直搜索引擎
如何做好一个垂直搜索引擎http://FullSearch.Com 中文全文检索网 2006-3-3 8:00:41 sigz 关键词:垂直搜索技术 垂直搜索 垂直搜索引擎 原创文章,无版权,可以任意转载,但是转载必须完整转载全文、本文url和内部解释性链接。随笔、欢迎批评指正。本文先引用几句话:1.“确解用户之意,切返用户之需。”2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”3转载 2007-03-28 22:08:00 · 2545 阅读 · 0 评论 -
第三代搜索引擎技术与P2P
第三代搜索引擎技术与P2P 第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜转载 2006-11-23 22:14:00 · 983 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由转载 2006-11-20 16:58:00 · 761 阅读 · 0 评论 -
六度分隔与最短路径
【最短路径】圆明园的北部有一个迷宫,据说古时候每次有庆典在圆明园的时候,皇帝会派一些宫女走迷宫,看谁最先走到迷宫内的亭子,会有不错的奖赏。迷宫问题对数学家们来讲虽然是小儿科但在计算机课程上却非常重要,因为不同的求解会涉及到递归,广度优先和深度优先等算法。迷宫毕竟是一个放置在2维空间的有限联系的网络,也就是说,迷宫里的每一个点,最多只和周围的4个点(上下左右)发生关系,而且这些点的位置是转载 2006-11-20 16:31:00 · 1057 阅读 · 0 评论 -
相关度计算与信噪比
你知道google和百度两个关键词的相关度是多少么?--最后我将来回答这个问题通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的转载 2006-11-20 16:23:00 · 1313 阅读 · 0 评论 -
数学之美 系列二 -- 谈谈中文分词
数学之美 系列二 -- 谈谈中文分词uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串转载 2006-11-20 16:13:00 · 659 阅读 · 0 评论 -
数学之美 系列一 -- 统计语言模型
数学之美 系列一 -- 统计语言模型uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且转载 2006-11-20 15:53:00 · 672 阅读 · 0 评论 -
数学之美 系列七 -- 信息论在信息处理中的应用
数学之美 系列七 -- 信息论在信息处理中的应用发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模转载 2006-11-20 15:41:00 · 602 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00uT("time115137628966847870");发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该转载 2006-11-20 15:27:00 · 642 阅读 · 0 评论 -
搜索引擎----一场技术的博弈
搜索引擎----一场技术的博弈 日期:2005-08-09] 来源:中国电子报 作者:孙永杰 第二代搜索引擎面临挑战 提到搜索引擎,人们会马上想到Google,从技术角度讲,Google是第二代搜索引擎的典型代表。从Google诞生至今已有六年多时间,Internet上先后诞生了数千个提供检索服务的站点,著名的有Google、Dogpile、百度等。虽然这些站点的搜索引擎在收录的范围转载 2006-11-10 17:24:00 · 669 阅读 · 0 评论 -
搜索引擎技术揭密:中文分词技术
搜索引擎技术揭密:中文分词技术 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的转载 2006-11-08 22:23:00 · 933 阅读 · 0 评论 -
搜索引擎研发的困难和发展方向
搜索引擎研发的困难和发展方向来源:http://FullSearch.Com 中文全文检索网 2006-2-17 14:36:30 王小川 关键词:搜索引擎发展方向 今天很高兴有机会在这里做这个题为《搜索引擎研发的困难和发展方向》的报告。几年前,搜狐公司的地址在建国门附近,那是一个商业的环境;2003年,公司研发中心成立于清华同方大厦,在这里,公司可以得到更多技术力量的支持;2004年转载 2006-11-08 22:16:00 · 1032 阅读 · 0 评论 -
查全率和查准率
查全率和查准率 一、查全率和查准率是目前衡量检索效果的相对合理的指标 查全率=(检索出的相关信息量/系统中的相关信息总量)*100% 查准率=(检索出的相关信息量/检索出的信息总量)*100% 前者是衡量检索系统和检索者检出相关信息的能力,后者是衡量检索系统和检索者拒绝非相关信息的能力。两者合起来,即表示检索效率。 二、查全率和查准率都有局限性 查全率的局限性主要表现在:它是检转载 2007-04-15 22:26:00 · 8311 阅读 · 1 评论