谷歌的新用户界面工具 Project Genie 是什么？

想象一下，在你的想象和数字现实之间几乎没有界限的世界里。

图片：双子座

想象一下，一张纸上的草图，或者一张家后森林的简单照片，就能瞬间变成一款你可以真正玩的互动游戏。这并非上世纪90年代科幻迷的梦想，而是谷歌旗下DeepMind研究实验室正在构建的现实。他们最新的成果——“精灵计划”（生成式互动环境）——标志着一个时代的终结：过去，只有经验丰富的程序员和设计师才能创造数字世界。

目前，Project Genie 仅面向美国 Google AI Ultra 订阅用户开放，用户每月需支付略高于 250 美元的费用。

“精灵计划”到底是什么？

Genie是世界上首个“生成式交互式世界模型”。过去两年里，我们已经习惯了像ChatGPT这样能够生成文本的聊天机器人，以及像Midjourney这样能够创建图像的工具，而Genie更进一步。它不仅能创建静态内容，还能创建鲜活的、可响应式的空间。

Genie 是一款人工智能模型，它通过学习超过 20 万小时的互联网 2D 横版游戏视频进行训练。与其他模型的主要区别在于，Genie 的训练无需任何关于按键操作或角色移动方式的额外信息。它能够独立判断图像的哪些部分是“可操作的”，角色向左移动会发生什么，以及重力如何影响虚拟世界中的物体。

这意味着 Genie 不仅仅是一个视频生成器。可以说，它是一个由人工智能驱动的游戏引擎。当你输入一张图片时，它不仅能预测视频中的下一帧，还能理解空间逻辑，并允许你进入和控制这个空间。

谷歌DeepMind最初于去年8月发布了Genie 3作为研究预览版，五个月后，随着Project Genie的正式发布，该公司正在寻求更广泛的用户反馈，同时加速开发更强大的世界模型。该领域的竞争日益激烈。李飞飞去年底通过其World Labs发布了首款商业产品Marble，初创公司Runway近期也推出了其世界模型，而前Meta首席科学家Yann LeCun也正致力于通过其初创公司AMI Labs开发此类模型。

Genie是如何运作的？

DeepMind 的研究人员使用了一种名为“潜在动作模型”的技术。大多数视频生成模型只是简单地根据前一帧来猜测下一帧的内容。而 Genie 则更进一步。

当模型观看电子游戏时，它会自问：“是什么看不见的动作导致了屏幕上的变化？” 随着时间的推移，它学会了识别动作模式。尽管它从未见过控制器或游戏代码，但它理解了跳跃、行走和互动等概念。如今，当用户按下键盘上的某个键时，Genie 会实时生成与该特定动作相对应的下一帧画面。

它仅凭一张图片就能进行创作的能力令人惊叹。你可以给它看一张真实世界的照片、一幅艺术画作，甚至是一幅儿童画。Genie 会将这些视觉信息转换成一个具有一致物理特性的游戏环境。如果画中有裂缝，模型就能理解角色不应该悬空行走。如果有障碍物，角色就会撞上去。

遗憾的是，我们无法访问新的用户界面工具，但我们找到了有关如何使用该新用户界面工具的信息。

首先，用户在网页应用的相应字段中输入对所需环境和角色的文字描述（或上传初始图片）。例如，“茂密的热带雨林，遍布古代遗迹，主角是一位正在悬索桥上行走的探险家”。然后，谷歌人工智能会使用 Nano Banana Pro 模型，根据描述生成世界预览图。用户可以进一步完善这幅图像（添加或移除元素，修改某些细节以更好地契合他们想要的世界构想）。同时，他们还可以选择视角（第一人称或第三人称）。

一旦草稿令人满意，用户点击“创建”按钮，Project Genie 便会在瞬间生成整个交互式场景，并将用户置身其中。环境和基本控制按钮会显示在屏幕上。移动操作与电脑游戏类似，使用标准按键（W、A、S、D 键移动，空格键跳跃/升空，方向键旋转视角）。Genie 的一个关键特性是，场景并非预先绘制完成，而是动态生成的。这意味着随着角色的移动，AI 会在玩家面前创建新的地形、事件和物体。

目前游戏画面以 720p 分辨率、每秒 24 帧的速度渲染。

每个世界或生成的体验时长限制为 60 秒。一分钟后，会话结束，这是预期行为，因为这是计算密集型任务。结束后，用户可以选择保存探索视频、重复实验，或创建一个全新的世界并添加新的描述。

除了从零开始创建世界外，用户还可以体验预设世界或其他用户创建的世界。Project Genie 支持世界混合。图库提供了一系列示例世界供用户下载，并可根据个人喜好进行修改。

虽然看着人工智能从零开始创造世界令人印象深刻，但我们之前已经提到过它的一些局限性。除了分辨率较低和时间限制之外，用户还反映角色与周围世界的互动非常基础。响应速度也比我们现在玩的游戏要慢。总而言之，这是一个非常有趣的工具，但开发阶段的痕迹也很明显。

谷歌强调，Project Genie的开发遵循负责任的开发原则。滥用行为是被禁止的。系统内置安全过滤器，以防止用户生成有害、非法或不当内容。