谷歌的新用户界面工具 Project Genie 是什么?
想象一下,一张纸上的草图,或者一张家后森林的简单照片,就能瞬间变成一款你可以真正玩的互动游戏。这并非上世纪90年代科幻迷的梦想,而是谷歌旗下DeepMind研究实验室正在构建的现实。他们最新的成果——“精灵计划”(生成式互动环境)——标志着一个时代的终结:过去,只有经验丰富的程序员和设计师才能创造数字世界。
目前,Project Genie 仅面向美国 Google AI Ultra 订阅用户开放,用户每月需支付略高于 250 美元的费用。
“精灵计划”到底是什么?
Genie是世界上首个“生成式交互式世界模型”。过去两年里,我们已经习惯了像ChatGPT这样能够生成文本的聊天机器人,以及像Midjourney这样能够创建图像的工具,而Genie更进一步。它不仅能创建静态内容,还能创建鲜活的、可响应式的空间。
Genie 是一款人工智能模型,它通过学习超过 20 万小时的互联网 2D 横版游戏视频进行训练。与其他模型的主要区别在于,Genie 的训练无需任何关于按键操作或角色移动方式的额外信息。它能够独立判断图像的哪些部分是“可操作的”,角色向左移动会发生什么,以及重力如何影响虚拟世界中的物体。
这意味着 Genie 不仅仅是一个视频生成器。可以说,它是一个由人工智能驱动的游戏引擎。当你输入一张图片时,它不仅能预测视频中的下一帧,还能理解空间逻辑,并允许你进入和控制这个空间。
谷歌DeepMind最初于去年8月发布了Genie 3作为研究预览版,五个月后,随着Project Genie的正式发布,该公司正在寻求更广泛的用户反馈,同时加速开发更强大的世界模型。该领域的竞争日益激烈。李飞飞去年底通过其World Labs发布了首款商业产品Marble,初创公司Runway近期也推出了其世界模型,而前Meta首席科学家Yann LeCun也正致力于通过其初创公司AMI Labs开发此类模型。

Genie是如何运作的?
DeepMind 的研究人员使用了一种名为“潜在动作模型”的技术。大多数视频生成模型只是简单地根据前一帧来猜测下一帧的内容。而 Genie 则更进一步。
当模型观看电子游戏时,它会自问:“是什么看不见的动作导致了屏幕上的变化?” 随着时间的推移,它学会了识别动作模式。尽管它从未见过控制器或游戏代码,但它理解了跳跃、行走和互动等概念。如今,当用户按下键盘上的某个键时,Genie 会实时生成与该特定动作相对应的下一帧画面。
它仅凭一张图片就能进行创作的能力令人惊叹。你可以给它看一张真实世界的照片、一幅艺术画作,甚至是一幅儿童画。Genie 会将这些视觉信息转换成一个具有一致物理特性的游戏环境。如果画中有裂缝,模型就能理解角色不应该悬空行走。如果有障碍物,角色就会撞上去。
遗憾的是,我们无法访问新的用户界面工具,但我们找到了有关如何使用该新用户界面工具的信息。
首先,用户在网页应用的相应字段中输入对所需环境和角色的文字描述(或上传初始图片)。例如,“茂密的热带雨林,遍布古代遗迹,主角是一位正在悬索桥上行走的探险家”。然后,谷歌人工智能会使用 Nano Banana Pro 模型,根据描述生成世界预览图。用户可以进一步完善这幅图像(添加或移除元素,修改某些细节以更好地契合他们想要的世界构想)。同时,他们还可以选择视角(第一人称或第三人称)。
一旦草稿令人满意,用户点击“创建”按钮,Project Genie 便会在瞬间生成整个交互式场景,并将用户置身其中。环境和基本控制按钮会显示在屏幕上。移动操作与电脑游戏类似,使用标准按键(W、A、S、D 键移动,空格键跳跃/升空,方向键旋转视角)。Genie 的一个关键特性是,场景并非预先绘制完成,而是动态生成的。这意味着随着角色的移动,AI 会在玩家面前创建新的地形、事件和物体。
目前游戏画面以 720p 分辨率、每秒 24 帧的速度渲染。
每个世界或生成的体验时长限制为 60 秒。一分钟后,会话结束,这是预期行为,因为这是计算密集型任务。结束后,用户可以选择保存探索视频、重复实验,或创建一个全新的世界并添加新的描述。
除了从零开始创建世界外,用户还可以体验预设世界或其他用户创建的世界。Project Genie 支持世界混合。图库提供了一系列示例世界供用户下载,并可根据个人喜好进行修改。
虽然看着人工智能从零开始创造世界令人印象深刻,但我们之前已经提到过它的一些局限性。除了分辨率较低和时间限制之外,用户还反映角色与周围世界的互动非常基础。响应速度也比我们现在玩的游戏要慢。总而言之,这是一个非常有趣的工具,但开发阶段的痕迹也很明显。
谷歌强调,Project Genie的开发遵循负责任的开发原则。滥用行为是被禁止的。系统内置安全过滤器,以防止用户生成有害、非法或不当内容。
为什么这对人工智能的未来如此重要?
你或许会疑惑,我们真的需要另一款人工智能工具吗?尤其是在开发电子游戏方面。答案是,Genie 不仅仅是一款游戏工具。一些专家认为,如果我们想要实现通用人工智能(AGI),这些世界模型至关重要。
人工智能要想真正理解人类世界,就不能仅仅从文本中学习。它需要理解因果关系。如果人工智能知道玻璃杯从桌子上被推下后会掉到地上摔碎,这便是一种超越简单句子结构的智能。像 Genie 这样的模型可以教会人工智能物理学、空间定向以及现实世界中的行为逻辑。
这对机器人技术有着巨大的影响。我们无需再花费高昂的成本和巨大的风险在真实环境中训练机器人行走,而是可以在无限的、由人工智能生成的模拟环境中进行训练,这些环境在视觉和物理上都与现实世界完全相同。如果一个机器人能够学会驾驭成千上万个不同的“精灵世界”,那么它就能更好地适应进入你家厨房的环境。
即将推出?
目前,谷歌正在密切关注这项新工具的推广情况。只有美国最忠实的Ultra会员才能使用,其他用户只能欣赏视频片段,等待更广泛的开放。该公司表示,随着技术的成熟,计划逐步向更多用户和更多地区开放这项服务。

























