能够通过文本提示准确找到图像中的 UI 元素,并返回 BBox 和坐标,它是一个基于 PaliGemma 和 WaveUI 数据集进行微调的的模型,提供了 448 和 896(效果最好)两个型号,可以用于创建能够自主浏览桌面、使用软件和 APP 的智能体.
能够通过文本提示准确找到图像中的 UI 元素,并返回 BBox 和坐标,它是一个基于 PaliGemma 和 WaveUI 数据集进行微调的的模型,提供了 448 和 896(效果最好)两个型号,可以用于创建能够自主浏览桌面、使用软件和 APP 的智能体.