使用Google Vision API进行计算机视觉图像创意分析

本文介绍了如何利用Google Vision API进行计算机视觉图像分析,包括标签检测、物体检测、面部表情检测、文本检测和主色检测。通过示例展示了API在时尚产品图像上的应用,同时指出了检测过程中可能出现的误识别问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

66450a21a96176089c44b57626165cbf.jpeg

介绍

计算机视觉可以用来从图像、视频和音频中提取有用的信息。它允许计算机看到并理解从视觉输入中可以收集到什么信息。在接收到视觉输入后,它可以在图像中收集有价值的信息,并确定必须采取的下一步。

Google Vision API是一种Google云服务,它允许使用计算机视觉从图像输入中提取有价值的信息。作为初学者,你可以使用此服务获得对图像的有意义的见解。下图显示了Google视觉API的工作原理。

a93fff4e77605b5700840722fe1a6785.png

上图显示了Google Vision API的功能。Google Vision API可以识别广告图像中的面部表情、文本和主要颜色。面部表情清楚地显示了一个人的喜悦表情,文字描述了“LEARN MORE”一词,主导色显示了图像中前10个主导色。

我们可以看到,通过利用谷歌视觉API功能,我们可以从图像中获得很多见解。例如,假设我们想知道广告图像中的哪些因素导致客户点击并查看我们的广告。这可以通过使用Google视觉API服务来发现。

本文将主要关注如何在图像中获得洞察力因素,以及我们可以从特定图像中获得什么洞察力。我们不会使用广告图片示例,因为由于公司保密,它无法发布。相反,我们将使用Kaggle数据集中可用于数据分析的产品图像。

数据集

该项目的数据集图像基于Kaggle的时尚产品图像数据集。因为数据集包含大量来自电子商务网站的产品图像,我们只会获取一小部分图像,这些图像可以用于我们的创意分析。此数据集许可证允许你复制、修改、分发和执行工作。

设置Google云视觉API

在开始之前,我们必须首先从GoogleCloud服务配置visionAPI服务。可在此处找到分步说明。但是,为了让事情变得更简单,我们将一步一步地向你展示如何从Google云服务设置API。

(注意:你必须从自己的Google Cloud帐户配置此API;我们不会在本教程中向你提供包含机密Google Cloud密钥的文件)。

步骤1:登录Google Cloud Project,然后从主页选择“转到API概述”。

edfcfc5c84bf379b73d2043700374b49.jpeg

步骤2:选择“启用APIS和服务”,然后搜索并启用Cloud Vision API。

e06c8154f4c3ac8f478ac630bedfa207.jpeg 026f09de9e2908476ed1efbab09e44d0.jpeg

步骤3:转到凭据,然后单击“创建Credentials”,然后单击服务帐户。

89107524981562f238e8576a4663aedb.jpeg

步骤4:输入你的服务帐户信息(你可以跳过可选部分),然后单击“完成”。

860cdbbc1b8600593d22cae4dc52f24a.jpeg

步骤5:导航到你创建的服务帐户。转到KEYS,然后“ADD KEY”和“Create new KEY”。

80eeb548603966e653dd1088f1cf948f.jpeg b641e84ded357df7f372b3d80ab927d7.jpeg

步骤6:创建JSON密钥类型,然后下载JSON文件并将其放置在Python脚本的工作目录中。

c90967b5c1fd0173fd4dd0e7822d350f.jpeg
安装必要的库

在开始计算机视觉建模之前,我们必须首先安装所需的库。我们将安装的第一个库是google-cloud-vision,它用于计算机视觉模型检测。我们可以在访问Google Cloud Vision API后使用此库。

pip install google-cloud-vision

下一个库是webcolors,当我们需要将颜色检测中的十六进制颜色数转换为我们所知道的最接近的颜色名称时,它非常有用。

!pip install webcolors
导入必要的库

安装必要的库后,我们将它们导入到脚本中。我们将从谷歌云库中导入视觉,用于视觉建模检测。对于数据预处理,使用了Ipython、io和panda等其他库。

from IPython.display import Image
from google.cloud import vision_v1 as vision
import io
import pandas as pd
import os

Webcolors用于将十六进制颜色格式转换为我们熟悉的颜色名称。KDTree用于查找CSS3库中最接近的颜色匹配。KDTree提供了一组k维点的索引,可用于快速查找任何点的最近邻居。

from scipy.spatial import KDTree
from webcolors import hex_to_rgb
from webcolors import CSS3_HEX_TO_NAMES
在python脚本上激活Google视觉API

将JSON文件放入目录后,我们必须在Python脚本中激活GoogleCloudVisionAPI服务。

# Activate Google vision API using service account key
client = vision.ImageAnnotatorClient.from_service_account_json("vision-api.json")
image = visi
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值