·电视迷们的福音:点播视/音频搜索
在10年之内,互联网将成为一个浩大的视/音频档案库,其内容将覆盖主流媒体和终端用户内容,而个人电脑、电视和移动设备之间的界限将被抹平。搜索,将成为从这一巨大的信息库中找到所需内容的唯一途径。
今天,大多数的视/音频搜索引擎依赖于人工创建的文字信息,比如包含视/音频网页的环绕文字,或者媒体注册源的描述性文字。而微软亚洲研究院的这一最新的视/音频搜索将改变用户从互联网上搜索视/音频的方式,它利用了语音识别和信息检索相关技术,使搜索视频语音内容中的文字成为可能;同时,用户可以通过遥控器直接在电视上使用搜索引擎,这也为观赏视频内容提供了极大的方便。
·照片搜索
Photo2Search是微软亚洲研究院开发的一个全新的互联网服务。通过这种服务,移动用户可以使用照相手机实时的查询大规模图像数据库。该技术有着非常广阔的实际应用,包括海报,建筑,店面等。例如,用户只需简单的拍摄一张餐馆的照片,即可通过Photo2Search在数据库中根据其局部特征搜寻包含同样建筑的图片,经由我们为图像数据库建立的一个高效索引,用户能够快速获得该图片的搜索结果。通过图片的注释,用户可以获得和餐馆或其所在地点相关的更多信息,比如营业时间、附近的其它餐馆和用户评价等。
·手机搜索
目前,人们使用具有网页浏览功能的移动设备,即可直接访问搜索引擎获取所要寻找的信息,但在这些设备上,搜索结果并不像在桌面计算机上那样易于访问。而微软亚洲研究院的“手机搜索”技术,可以通过计算,自动分析出网页中各个部分的功能和其相关性,进而采用更加有效的信息表达方式把网页内容展示给用户。
·基于结构传播的图像完成
基于结构传播的图像完成是一种数字图像修复、擦除技术。其结构传播由3部分组成:首先,用户在图像上画一些曲线或线段来指定图像上缺失的显著结构信息;然后,基于贝叶斯信任传播算法,结构传播技术沿着用户画的曲线合成丢失的图像结构信息;最后,我们使用纹理合成技术合成所有剩余的图像纹理信息——基于结构传播的图像完成是当前世界上最好的数字图像修复技术之一。
·视频对象分割和粘贴
视频对象分割和粘贴技术可以将一个运动物体从一段视频序列中分割出来,并粘贴到其他任意图像或视频序列中。该技术由3部分组成:首先,我们将视频序列看作一个三维空时数据,使用基于图论的三维分割算法将视频序列中的前景和背景分离开来;然后,我们使用局部三维分割算法在每一帧上改进,细化分割结果;最后,以精细抠图算法来提取高精度的前景运动物体的颜色和边缘信息。
基于结构传播的图像完成是一种数字图像修复、擦除技术。其结构传播由3部分组成:首先,用户在图像上画一些曲线或线段来指定图像上缺失的显著结构信息;然后,基于贝叶斯信任传播算法,结构传播技术沿着用户画的曲线合成丢失的图像结构信息;最后,我们使用纹理合成技术合成所有剩余的图像纹理信息——基于结构传播的图像完成是当前世界上最好的数字图像修复技术之一。
·微软对联
你能够想象计算机来跟你对对联吗?“微软对联”是由微软亚洲研究院自然语言组研究开发的计算机自动对联系统,也是世界上第一套人工智能自动对联系统。具体而言,用户给定上联,然后系统自动产生下联;或者用户也可通过交互手段优选字词来生成满意的下联。本项技术可以用于在线数字游戏,以及服务于中小学以及外国人的智能汉语教学。
·平板地图与基于地理位置的服务
地图软件已经成为最流行的应用软件之一,并走入人们的日常生活。地图软件的运行环境已经从桌面系统(例如微软开发的MapPoint)扩展到Web(例如微软开发的Virtual Earth和Google开发的Google Map)和移动计算环境(例如微软开发的MapPoint for Windows Mobile)。然而这种实现方式存在诸多缺陷:目前大多数地图软件的实现仅仅采用了基于键盘-鼠标的操作模式;此外,现有实现方式中,缺乏动态信息的提供,而仅仅提供静态且源于单一信息源的地理关联信息。
作为微软亚洲研究院创新技术孵化研究组的创新研究成果之一,Tablet Map提供了一种基于手写操作的图形化用户界面设计,从而使用户在使用诸如Tablet PC这种基于手写笔的计算设备时,能够获得更好地图浏览、路由和导航服务;该软件能够实时提供源自不同信息源的基于地理位置的信息;此外,Tablet Map还提供了一种灵活的接口设计从而便于将源自不同Web Services(例如eBay)的基于地理位置的信息与地图服务进行集成。本系统借助微软亚洲研究院所研发的索引和搜索技术,从而能够提供高性能的地理位置敏感的信息检索服务。
·美式橄榄球阵法
美式橄榄球阵法是平板电脑上极炫极酷的一个体育应用,它充分体现了数字墨水对人机交互体验的高度提升。橄榄球阵法通常由多种进攻和防守阵法组成,教练用它指导队员进行训练和比赛,因此它对整个球队至关重要。微软亚洲研究院的美式橄榄球阵法这一应用,不仅使教练能够充分用计算机对阵法进行有效的存储和组织,还可以使教练能够像以前一样用笔对阵法进行各种操作。此外,该应用能够用动画效果对各种阵法进行仿真,因而教练和队员不需下场即能对各种阵法如何运作有很好的理解。
·手写数学工具识别器
在计算机的日常使用过程中,用户特别是学生、教师、工程师和科研人员,经常会有将数学公式输入计算机的需求。现行的两种输入方法——特殊语言法和图形界面法,都不及手写数学公式自然、简便。微软亚洲研究院基于模式识别技术的“手写数学公式识别器”,为用户提供了全新的手写输入功能。当用户在平板电脑上手写数学公式之后,手写数学公式识别器就可以自动识别出用户所写的公式。手写数学公式识别器作为Microsoft Education Pack的应用之一,已经于2005年7月发布,用户可以在微软公司的网站免费下载。
·动态个人主页
帮助用户组织个人感兴趣的信息是一项非常辛苦的工作。微软亚洲研究院提供了一种半自动化的解决方案,叫做“动态个人主页”,能够帮助用户从一组网页中抽取他感兴趣的内容,并组织成一个新的页面。当前的Live.com只能处理XML结构的数据,而我们所研发的系统已经可以处理HTML格式的页面,此外,该系统还可以自动检测页面内容更新的情况,并自动更新组织成的新页面。
·视频聊天中的视觉特效
长期以来,鲁棒、实时的3D人脸跟踪,以及将用户从背景中分离出来,是非常有挑战性的计算机视觉研究课题。而这些技术有着广泛的应用场景,比如视频游戏、视频聊天等等。现有的一些系统要么非常耗时,要么非常容易失败。微软亚洲研究院的技术创新已经改变了这一现状——通过将图像分割技术与物体跟踪技术相融合,我们开发出一套鲁棒、实时的系统,有效地解决上述的研究难题。该系统可以通过MSN视频聊天进行演示。
·动态场景中的预计算阴影场
软影绘制大大增强了计算机生成图像的真实感,因此在很多计算机图形应用中都十分重要,对游戏而言尤其如此。然而,在动态场景中计算由环境光源和普通局部光源共同产生的软影是非常困难的,这是因为对大面积光源的积分非常耗时,而场景改变时对预计算结果进行重用和更新也是很大的开销。微软亚洲研究院为实时软影绘制开发了一项新的技术,该技术为场景中的每个实体建立了一个和场景状态无关的阴影场,从而避免了运行时对预计算结果进行更新的开销。