现实版“你是我的眼”：微软开发了帮助视障人士“阅读”的AI

数据堂官方账号

已于 2023-03-31 18:56:20 修改

阅读量625

点赞数

分类专栏：分享文章标签：人工智能 microsoft

于 2021-08-03 16:20:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44532659/article/details/119352842

版权

分享专栏收录该内容

61 篇文章 5 订阅

订阅专栏

近日，微软开发了一种新的图像字幕算法，支持自动为文档和电子邮件中的图片添加字幕，以便视觉障碍辅助软件能够进一步获得图像信息。

在现有的测试中，其识别准确率已超过了人类。该人工智能系统已被用于更新微软公司为视障人士提供的助理应用程序Seeing AI，并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。

微软开发了帮助视障人士获取图像信息的图像字幕算法

微软办公软件套件目前已经提供部分无障碍措施，例如附带的读屏软件可以逐行逐字朗读内容帮助视障人士进行识别。

新的图像字幕算法在办公软件中的应用则是为图片创建替代文本，也就是图片的ALT属性，替代文本又可以被读屏软件识别转为语音内容。

微软的研究人员在一篇预印论文中解释了他们的机器学习模型，该模型利用大量成对的图像标签数据来进行视觉词汇训练。为了测试图像字幕算法的性能，研究人员让其参与了nocaps基准测试。

nocaps基准测试由超过166,000个人工生成的字幕组成，描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景，从运动到假日抓拍，再到美食摄影等等。

微软研究实验室的首席研究经理王丽娟解释道：“nocaps基准挑战就是让人工智能描述那些在训练数据中没有见到过的新图像。”

nocaps基准测试就是让AI描述在训练数据中没有见过的图像

图像字幕算法没有让工作人员失望，在nocaps基准测试中取得了有史以来最高的分数。

实际上，新的图像字幕算法能够显著提高Seeing AI的性能，因为它不仅能识别物体，还能更精确地描述它们之间的关系。

当算法看一张图片时，不仅能说出图片中包含哪些物体，如一个人、一把椅子、一个手风琴，还能说出它们之间的互动关系，如“一个人坐在椅子上，正在拉手风琴”。

Azure AI首席副总裁埃里克·博伊德说：“图像字幕是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体，还代表了它们是如何交互的，以及如何描述它们。”

优化字幕技术可以帮助每一个用户：它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说，它可以让网络和软件导航变得更加友好。

参考：

1.https://artificialintelligence-news.com/2020/10/19/microsoft-new-ai-auto-captions-images-visually-impaired/

2.https://moore.live/news/246725/detail/

3.https://finance.sina.com.cn/tech/2020-10-15/doc-iiznezxr6011585.shtml

数据堂官方账号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
现实版“你是我的眼”：微软开发了帮助视障人士“阅读”的AI

近日，微软开发了一种新的图像字幕算法，支持自动为文档和电子邮件中的图片添加字幕，以便视觉障碍辅助软件能够进一步获得图像信息。在现有的测试中，其识别准确率已超过了人类。该人工智能系统已被用于更新微软公司为视障人士提供的助理应用程序Seeing AI，并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。微软开发了帮助视障人士获取图像信息的图像字幕算法微软办公软件套件目前已经提供部分无障碍措施，例如附带的读屏软件可以逐行逐字朗读内容帮助视障人士进行识别。新的图像字幕算法在办公软
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。