把照片唱给你听 | 腾讯AI Lab国际领先技术邀你「趣」体验

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。


2017年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。

微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:http://cocodataset.org/#captions-leaderboard


团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。


class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="0.5660377358490566" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=j0562nbwl5k&width=668&height=501&auto=0" style="display: block; width: 668px !important; height: 501px !important;" width="668" height="501" data-vh="501" data-vw="668" src="http://v.qq.com/iframe/player.html?vid=j0562nbwl5k&width=668&height=501&auto=0"/>
上传吃喝玩乐国庆美图时,AI唱出来是这样的


class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="0.8823529411764706" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=u0559s7osca&width=668&height=501&auto=0" style="display: block; width: 668px !important; height: 501px !important;" width="668" height="501" data-vh="501" data-vw="668" src="http://v.qq.com/iframe/player.html?vid=u0559s7osca&width=668&height=501&auto=0"/>

上传不太正常的图片时,AI可能会被被网友的脑洞玩坏 -_-||


现在,我们将邀请100位「首席体验官」优先测试Demo。如果你有相关技术背景,或图片视频制作经验,将有机会优先体验。请留下评论,回复您的姓名+邮箱+所属公司+职业,如:王小明+wxm@qq.com+腾讯+设计,我们将稍后通知测试方法。


Demo 第 一 步:让 机 器 看 图 写 词

详 解 图 像 描 述 生 成 技 术


Demo中机器「写」出的歌词,其实是给图片配上一句话说明,也被称为图像描述生成。这是一个跨模态(Cross-modality)研究方向,机器不仅要理解图像内容,还要学习和组织语句,给出通顺并符合人类语义习惯的表述。


图像描述生成是一个让机器学会深度理解图片内容的技术。以前,机器只能识别图片里出现的是一只狗,而不是猫;现在,机器不仅识别出狗,说出它的颜色甚至种类,甚至能理解它所处的环境和与其他物体的关系,这体现了机器「视觉能力」的进步。

从简单的图片分类到生成复杂的文字描述,机器用了30多年


在一个三岁儿童的眼里,这可能是个很简单的任务。但机器走到这一步,花费了几十年的时间。尽管如此,机器在理解更复杂的图像内容时,恐怕依旧赶不上三岁小孩。但我们相信,机器前进的每一小步,都体现出人类智慧的一大步。


Demo中使用的是我们全新设计的图像描述模型,采用端到端编码器-解码器模型。这个过程可以用下面的图片表示出来:给定一张图片,用卷积神经网络(CNN)为图片编码,得到全局或局部的图片表示;用长短时记忆模型(LSTM)解码上述的图片表示,转换为一句话的文字说明。解码过程中创新采用了注意力模型(Multistage Attention Model),捕捉到了每个单词生成时,不同局部信息的贡献程度,通过引入不同级(stage)注意力模型,更加充分的挖掘在产生每一个单词的过程中的图像的全局和局部信息的贡献;而整个深度网络模型得到了强化学习的充分训练,从而产生更加流畅的自然语句描述图像内容。

Demo采用的全新图像描述模型


在研究上,这个技术能同时推进对图像和自然语言间单学科到跨学科的理解、分析与运用。而应用上,它的前景非常值得期待。互联网上几乎大部分数据都以图像+文本的多模态方式存在,仅以腾讯产品为例,从微信朋友圈、QQ空间图片到天天快报的新闻,都是图像与文本强相关的素材,这之间的深度关系挖掘,能促进更强的内容理解,进而提供更好的产品体验。比如能为相册照片自动生成丰富的描述,可进一步提升图片的分类、搜索和推荐质量;用于图像文本对话系统中,可为图片生成更相关的评论,或直接做「斗图」这样的趣味图像对话;与语音技术结合时,能帮助幼儿或视觉障碍人群更好地理解图像内容。


Demo 第 二 步:让 机 器 看 字 说 话

聊 聊 文 本 转 语 音 技 术 TTS


机器「给你听的,正是将文字转为语音的合成声音。语音合成(Speech Synthesis)或文本转语音(TTS)技术,是Siri这类语音助手不可或缺的一部分,也被广泛应用到游戏、读书及娱乐等领域。

 

我们使用了商业产品中最常见的参数合成技术,提供了清晰可理解、自然流畅的语音。这背后是大量的工作,第一步是录制专业播音人才近20小时语料;因为不可能录制人的每一句话,第二步里机器要将语音切片成音素,最后使用深度学习对音素的的声学特征与时长建模。


目前我们还在进一步研究语料库较小、低占用的参数合成技术,并考虑将单元选择的高品质和参数合成的灵活性优势结合。


让 内 容 与 AI 做 加 法

机 器 对 文 字、图 像 与 视 频 施 魔 法


结合腾讯内容产品上的独特优势,针对图像、视频、新闻与文学等领域的「内容AI」一直是腾讯AI Lab的四大应用方向之一。


针对图像、视频和文本等多媒体内容AI,我们不断进行探索与尝试,并在基础图像识别领域,如人脸检测、人脸识别及OCR方面有很大突破,更多细节将在11月8日在成都举办的腾讯全球合作伙伴大会(点链接)上分享,敬请期待。



在使用Python来安装geopandas包时,由于geopandas依赖于几个其他的Python库(如GDAL, Fiona, Pyproj, Shapely等),因此安装过程可能需要一些额外的步骤。以下是一个基本的安装指南,适用于大多数用户: 使用pip安装 确保Python和pip已安装: 首先,确保你的计算机上已安装了Python和pip。pip是Python的包管理工具,用于安装和管理Python包。 安装依赖库: 由于geopandas依赖于GDAL, Fiona, Pyproj, Shapely等库,你可能需要先安装这些库。通常,你可以通过pip直接安装这些库,但有时候可能需要从其他源下载预编译的二进制包(wheel文件),特别是GDAL和Fiona,因为它们可能包含一些系统级的依赖。 bash pip install GDAL Fiona Pyproj Shapely 注意:在某些系统上,直接使用pip安装GDAL和Fiona可能会遇到问题,因为它们需要编译一些C/C++代码。如果遇到问题,你可以考虑使用conda(一个Python包、依赖和环境管理器)来安装这些库,或者从Unofficial Windows Binaries for Python Extension Packages这样的网站下载预编译的wheel文件。 安装geopandas: 在安装了所有依赖库之后,你可以使用pip来安装geopandas。 bash pip install geopandas 使用conda安装 如果你正在使用conda作为你的Python包管理器,那么安装geopandas和它的依赖可能会更简单一些。 创建一个新的conda环境(可选,但推荐): bash conda create -n geoenv python=3.x anaconda conda activate geoenv 其中3.x是你希望使用的Python版本。 安装geopandas: 使用conda-forge频道来安装geopandas,因为它提供了许多地理空间相关的包。 bash conda install -c conda-forge geopandas 这条命令会自动安装geopandas及其所有依赖。 注意事项 如果你在安装过程中遇到任何问题,比如编译错误或依赖问题,请检查你的Python版本和pip/conda的版本是否是最新的,或者尝试在不同的环境中安装。 某些库(如GDAL)可能需要额外的系统级依赖,如地理空间库(如PROJ和GEOS)。这些依赖可能需要单独安装,具体取决于你的操作系统。 如果你在Windows上遇到问题,并且pip安装失败,尝试从Unofficial Windows Binaries for Python Extension Packages网站下载相应的wheel文件,并使用pip进行安装。 脚本示例 虽然你的问题主要是关于如何安装geopandas,但如果你想要一个Python脚本来重命名文件夹下的文件,在原始名字前面加上字符串"geopandas",以下是一个简单的示例: python import os # 指定文件夹路径 folder_path = 'path/to/your/folder' # 遍历文件夹中的文件 for filename in os.listdir(folder_path): # 构造原始文件路径 old_file_path = os.path.join(folder_path, filename) # 构造新文件名 new_filename = 'geopandas_' + filename # 构造新文件路径 new_file_path = os.path.join(folder_path, new_filename) # 重命名文件 os.rename(old_file_path, new_file_path) print(f'Renamed "{filename}" to "{new_filename}"') 请确保将'path/to/your/folder'替换为你想要重命名文件的实际文件夹路径。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值