谷歌DeepMind提出了一种通用模型，拓展了计算机视觉的边界。

谷歌DeepMind发布了Vision Banana，这是一款革命性的图像生成模型，它利用引导学习在理解视觉数据方面取得了显著成果。在测试中，该模型在图像分割方面击败了SAM 3等专业系统，在深度度量估计方面也优于Depth Anything V3，这标志着人工智能发展的一个重大转变。

照片：谷歌

谷歌DeepMind研究团队利用Vision Banana模型证明，图像生成先导模型能够为理解视觉世界奠定坚实的基础，这与大型语言模型（LLM）通过预测下一个词来发展语言理解能力非常相似。该系统基于谷歌最先进的图像生成器Nano Banana Pro，并通过轻量级指令式学习将其转化为Vision Banana。其关键创新在于，将分割、深度确定和表面法线估计等各种计算机视觉任务转化为RGB图像生成任务。

Vision Banana 在所谓的“零样本”环境中取得了卓越的成绩，在这种环境下，模型没有任何特定数据集的经验。它在图像分割方面超越了 SAM 3 模型，同时深度度量得分达到了 0.929（δ1 参数），打破了此前的纪录保持者 Depth Anything V3（0.918）。尤其令人印象深刻的是，该模型无需任何相机参数信息即可确定深度，而这一直是此类系统面临的主要挑战。

这种方法具有三大关键优势。首先，只需改变文本提示，单个神经网络即可执行多种任务。其次，只需少量特定的视觉数据即可调整模型。此外，尽管具备了新的分析能力，Vision Banana 仍然完全保留了其生成精美逼真图像的原始功能。

研究人员认为，我们正在见证一场范式转变，生成式预学习将成为构建未来通用视觉模型的标准。Vision Banana 不仅仅是一个新工具，它还证明了创造视觉内容的能力隐含地需要对现实世界的几何、语义和空间关系有深刻的理解。