海量DESE推动企业级中文搜索引擎走向成熟

全文检索逸事

  10G、20G、40G、80G……,近年,企业网络系统内,服务器的硬盘在以N次方的速度频繁升级,而职员却永远在抱怨机器如同老牛拖货车,“慢”得令人无法忍受。

  有关调查结果显示,当前,对“基于内容搜索的文件系统”成为用户的迫切要求。在几乎所有企业所构建的网络系统中,“全文检索”功能已成客户开发应用平台的重要部分。

  另外,互联网有关资深专家也声称:“中国企业信息化热情陷入低潮期的重要原因,就是用户忽视了其网站的交互特性,网站功能用途有待挖掘;企业网站要提高访问量,应该增加实用的全文检索功能。”

   同样,拥有海量或分散数据的行业,对全文检索技术应用的要求更高。如电子政务、教育、金融、电信、医疗等几乎所有领域,面对日积月累的文件、各类型数 据、历史资料等,使企业内外网的用户及访问者,都对查找有用信息的及时性提出了更高要求,致使这些行业网络系统中数据库服务器,不堪重负。

   “查找有用信息效率低、数据分散、全文检索功能单一等,都是目前系统处理数据过程中存在的重要问题;而软硬件的高昂投入、开发及维护成本,使用户望而却 步,更成为阻碍企业内外网利用固有资源的一大瓶颈。”北京海量在线公司总裁王革焰分析认为,造成当前这种不堪局面,可以说是中国软件业对数据处理的一大技 术失误。

  今年7月份,当微软(中国)公司与北京海量在线信息技术有限公司(北京海量)达成合作意向,宣布双方就“企业级中 文搜索引擎新解决方案-DESE(嵌入式数据库搜索引擎SQL Server版本)”在中国大陆地区的推广展开合作之时,几乎同时正式宣告,海量DESE乘风而来,必将彻底改变用户对信息的获取方式,将“基于内容查找 的搜索引擎”——DESE,推向前台。

  从数据库到搜索引擎的飞跃

  “让你的数据库成为搜索引擎,这是DESE完成中文信息处理的首要任务。”在此,王革焰,对DESE系统技术特点作了阐述。

  DESE不但解决了传统型全文检索在数据导入导出的安全隐患与权限同步复杂的两大问题,还实现了企业级搜索引擎的功能。系统提供了针对文件系统的服务程序,它不但可以直接支持数据库中已有的数据记录,而且支持文件系统中的文件。

   DESE与传统全文检索系统最大区别在于,客户无需额外投入去创建新系统。对于客户而言,重建新系统至少产生三大缺点:一是客户实施、开发及维护成本高 昂;二是权限管理复杂,原有数据库和新建索引数据库至少需重建两个权限;三是安全性降低。在新旧两套系统间进行数据库的导入导出,安全隐患的发生可想而 知。

  DESE与传统全文检索的主要区别如下

  1、 集成方式:DESE是通过直接对原数据库进行无缝集成,传统方式则需建立单独系统。

  2、 数据采集:DESE对数据库完全透明支持,并支持文件系统,且支持其他应用系统中的数据;传统方式则对数据库不能透明支持,需要数据网关模块的支持。

  3、 核心技术:DESE拥有领先的中文分词技术,而传统检索则大多采用字检索或词典式分词的简单分词方式。

  4、 权限与安全:DESE与数据库的权限管理无缝集成,而传统检索则需要和数据库同步,需导入导出数据,且存在安全隐患。

  5、 产品价格:DESE价格比高,而传统检索开发费用高昂,而且需要极高的附加投入。

  6、 研发与维护成本:DESE可直接应用,也可调用打包好的存储过程进行二次开发,相当便捷,由于与数据库无集成,基本不需要维护,而传统检索则需要大量开发与维护工作。

  7、 实施效率:DESE在一小时内实现企业级搜索引擎,而传统型全文检索的实施周期却往往一个月以上。

  另外,就海量DESE系统的核心技术——中文分词的应用特点,王革焰作了进一步的解释。

   目前,其他数据库厂商提供的中文全文检索,都是将中文的每一个字作为一个西文单词建立索引,即所谓“字索引”。而“词”是语言中表达一个确定意义的最小 语言单位。“字索引”将“字”作为索引和检索的单位,造成语意的割裂,使检索结果出现大量的误查。例如:检索“国花”,会出现“美国花旗银行”。另一方 面,数据库全文检索在“字索引”条件下过滤检索停用词时,会将词中的一个字作为停用词从检索串中过滤掉,从而产生大量的检索错误。例如:检索“大会”,数 据库全文检索会将“大”作为停用词过滤掉,造成“约会”也会被命中。

  数据库本身的全文检索模块,对中文的查询效率要远低于对英文的查询效率,最主要的原因是,英文是按单个词方式进行查询,但中文是按单字方式进行查询。

   如用一种常见的检索方式来进行测试。假设在1万条记录的集合中,共有500条记录包含了“公司”两个字,另外有3000条记录包含了“公”字,2000 条记录包含了“司”字。词的方式查询“公司”两个字,能直接命中这500条记录。它所用的时间是查询500条记录的时间。但是,通常用的字方式查询“公 司”,全文检索系统会先找到包含“公”字的3000条记录,然后再判断“公”字后面紧接着有那些“司”字记录。最终也会命中500条记录。但是,它所用的 时间是查询3000条记录的时间+ 判断这3000条记录后面是否是“司”字的时间。当然,实现检索有多种途径,但结果所用时间大同小异。这也就是拥有海量中文分词技术的DESE产品之优势 所在。

  另外,DESE可以灵活的通过扩充数据源的种类,来增加DESE的支持能力。比如:可以增加对WPS的支持,也可以 增加对Lotus文件数据库的支持等;DESE统一了结构化数据和非结构化数据的查询问题。DESE还可以对被分散地存储在企业网络系统内的文件、邮件等 这些非结构化数据进行检索。

  这也是为何DESE实现如此高性能检索的原因。不得不提到的是,在20分钟内,DESE即可实现快速实施。

  [DESE小传]

  DESE的诞生起缘于一次邂逅。

   两年前,北京海量的技术部与合作伙伴就某银行客户OA系统平台作联合开发,当时,提供硬件设备的一家全球著名的数据库厂商,对海量的中文分词技术非常感 兴趣。他们表示,该公司现有数据库处理中文信息的性能,极不理想,公司希望北京海量能将其核心技术——成熟的中文分词应用,推入更底层,为用户开发出一套 嵌入到数据库的中文数据库检索系统。

  众所周知,数据库出现的最大贡献,就是解决了海量数据的存储与安全问题。包括 Oracle、IBM、Sybase等等在内的几乎所有的大型数据库提供商,都是国外企业;正因如此,面对他们持西文数据的客户,信息无需进行不同语言间 的转换,从而使他们的数据库能很方便地同时实现搜索引擎的功能,这些用户,并不需要独立的搜索引擎。但是,当在面对西文以外的客户,如中文数据库进行全文 检索时,问题就出现了。

  尽管这些国外大型数据库提供商们,在数据库研发及应用方面拥有多年积累的成熟经验,当业务拓展至中 国,为有别于原有语言的用户服务时,其系统对中文数据信息的处理感到力不从心。并且,由于数据库自身的全文检索功能单一,又未经过分词处理,造成速度慢, 准确度低,经常出现不准确信息结果,以及漏查现象的时有发生,最终给采用这些系统的国内用户,带来了种种缺撼,并且,这些问题随着文件与数据量的逐年递 增,而日益突出。

  同时,大型数据库厂商无法花费更多精力,去进行这方面的技术研发。在此情况下,国内开始出现了一批中文搜索引擎厂商。

   至今,中文搜索引擎已有多年的发展历史。传统型全文检索产品,开发出独立于原有数据库的检索平台,利用该平台进行文件的采集和搜索。此方式很好地解决了 高端用户的搜索需求,但是对于大部分的有需求的用户而言,如果要实现此功能,必须得投入一笔高额的费用来购置相关系统,加之投入开发和维护的成本,这些使 得大多数企业,对之望尘莫及。

  在中文分词技术领域耕耘多年的北京海量在线,针对企业级用户市场需求,于2003年9月,正式向市场上推出创新型的全文检索产品——DESE嵌入式搜索引擎。

   该系统采用海量公司先进的智能分词技术,类似新闻网站相关新闻的相关文档技术,能够对整篇文章进行“中心思想”总结的概念抽取技术;含有查询内容反显的 动态摘要技术;通过自然界语言扩展检索的描述性语言检索技术;以及经常用于资料与论文的关键字提取技术等多项中文处理智能技术,同时结合数据库自身的检索 机制,形成基于数据库的新型搜索引擎,实现了数据的权限管理、数据维护、数据安全、信息搜索一体化。

  业界专家预言,DESE的出现,将成为信息搜索市场有力的推动者,必定成为国内企业级引擎技术领域主角。

  目前,海量全文检索产品已成功应用于天津日报集团、新华社、CSDN站内搜索、天极网、方正电子图书等用户,还有很多合作伙伴将DESE嵌入在其产品与方案中,使中文信息处理技术得以广泛推广。   

  如何媲美Google

  北京海量总裁王革焰兴奋的说:“DESE在全面提升数据库全文检索质量的同时,大幅提高了检索效率。可以毫不夸张地说,DESE就是一个企业级的智能Google。”

  在此,王革焰进一步阐述,DESE应用中文智能分词技术,使数据库中文全文检索实现由“字索引”到“词索引”的本质进化,提升了检索质量。

  中文与西文的一个重要区别在于,西文以词为单位,词与词之间以空格分隔。而中文以字为单位,词由一个或多个字组成,词与词之间没有空格分隔。DESE使用了业界领先的海量中文分词技术,大大提升数据库处理中文的效率。

  总之,DESE应用先进的海量中文智能分词技术,使数据库中文全文检索实现由“字索引”到“词索引”的本质进化,从根本上提升了检索的质量。

  实际上,实现数据库全文检索,不过是海量DESE系统的基本功能,DESE还包含了多项中文处理智能技术。同时,实现基于语义分析的全文检索的DESE智能搜索引擎,即将面世,可以预见,新一代DESE产品的出现,将是下一轮引搜索市场热潮的引领者。

   另据海量高级业务经理张立辉介绍,DESE用户可谓分布在所有行业。如企业内部资料分散,需提高其利用率,提升自身竞争力的企事业单位、组织及政府机 构;有站内检索功能需求的网站,特别是专业网站、中小型网站和企业网站;报社、电台、电视台、出版机构等媒体,图书馆、资料馆、档案馆等。

   DESE从诞生到应用决非偶然,这不仅是海量多年致力于中文智能计算技术的又一成果证明,同时显示中文分词技术的商用市场大幕已经拉开。对于需要集成全 文检索功能的OA系统、EIP系统、网站发布系统、内容管理、知识管理、文档管理系统等独立软件开发商而言,与北京海量结盟,无异于掌握了一把抢先打开企 业级搜索市场宝藏的钥匙。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值