近日,微软开发了一种新的图像字幕算法,支持自动为文档和电子邮件中的图片添加字幕,以便视觉障碍辅助软件能够进一步获得图像信息。
在现有的测试中,其识别准确率已超过了人类。该人工智能系统已被用于更新微软公司为视障人士提供的助理应用程序Seeing AI,并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。
微软开发了帮助视障人士获取图像信息的图像字幕算法
微软办公软件套件目前已经提供部分无障碍措施,例如附带的读屏软件可以逐行逐字朗读内容帮助视障人士进行识别。
新的图像字幕算法在办公软件中的应用则是为图片创建替代文本,也就是图片的ALT属性,替代文本又可以被读屏软件识别转为语音内容。
微软的研究人员在一篇预印论文中解释了他们的机器学习模型,该模型利用大量成对的图像标签数据来进行视觉词汇训练。为了测试图像字幕算法的性能,研究人员让其参与了nocaps基准测试。
nocaps基准测试由超过166,000个人工生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。
微软研究实验室的首席研究经理王丽娟解释道:“nocaps基准挑战就是让人工智能描述那些在训练数据中没有见到过的新图像。”
nocaps基准测试就是让AI描述在训练数据中没有见过的图像
图像字幕算法没有让工作人员失望,在nocaps基准测试中取得了有史以来最高的分数。
实际上,新的图像字幕算法能够显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。
当算法看一张图片时,不仅能说出图片中包含哪些物体,如一个人、一把椅子、一个手风琴,还能说出它们之间的互动关系,如“一个人坐在椅子上,正在拉手风琴”。
Azure AI首席副总裁埃里克·博伊德说:“图像字幕是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”
优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得更加友好。
参考:
1.https://artificialintelligence-news.com/2020/10/19/microsoft-new-ai-auto-captions-images-visually-impaired/
2.https://moore.live/news/246725/detail/
3.https://finance.sina.com.cn/tech/2020-10-15/doc-iiznezxr6011585.shtml