谷歌DeepMind提出了一种通用模型,拓展了计算机视觉的边界。
谷歌DeepMind研究团队利用Vision Banana模型证明,图像生成先导模型能够为理解视觉世界奠定坚实的基础,这与大型语言模型(LLM)通过预测下一个词来发展语言理解能力非常相似。该系统基于谷歌最先进的图像生成器Nano Banana Pro,并通过轻量级指令式学习将其转化为Vision Banana。其关键创新在于,将分割、深度确定和表面法线估计等各种计算机视觉任务转化为RGB图像生成任务。
Vision Banana 在所谓的“零样本”环境中取得了卓越的成绩,在这种环境下,模型没有任何特定数据集的经验。它在图像分割方面超越了 SAM 3 模型,同时深度度量得分达到了 0.929(δ1 参数),打破了此前的纪录保持者 Depth Anything V3(0.918)。尤其令人印象深刻的是,该模型无需任何相机参数信息即可确定深度,而这一直是此类系统面临的主要挑战。
这种方法具有三大关键优势。首先,只需改变文本提示,单个神经网络即可执行多种任务。其次,只需少量特定的视觉数据即可调整模型。此外,尽管具备了新的分析能力,Vision Banana 仍然完全保留了其生成精美逼真图像的原始功能。
研究人员认为,我们正在见证一场范式转变,生成式预学习将成为构建未来通用视觉模型的标准。Vision Banana 不仅仅是一个新工具,它还证明了创造视觉内容的能力隐含地需要对现实世界的几何、语义和空间关系有深刻的理解。




















