谷歌新招!一张图就能造3D游戏世界,还要联手马斯克打造AI游戏大作

一、谷歌世界模型Genie 2概述

Google DeepMind发布了新一代世界模型Genie 2,它能够根据单张图生成可供人类或AI智能体游玩的无限3D世界。这一成果引起了广泛的关注,好评与震惊如潮水般涌现,有人认为这是视频游戏的未来,甚至看到了一切被虚拟化的世界模型的更长远未来。

谷歌新招!一张图就能造3D游戏世界,还要联手马斯克打造AI游戏大作
(图片来源网络,侵删)
谷歌新招!一张图就能造3D游戏世界,还要联手马斯克打造AI游戏大作
(图片来源网络,侵删)

(一)Genie 2的功能特点

  • 基础世界模型特性

    • Genie 2是一个基础世界模型(foundation world model),有能力生成无限多种可控制动作、可玩的3D环境,这些环境可用于训练和评估具身智能体。

    • 它只需使用单张提示图像,就能生成可供人类或AI智能使用键鼠输入游玩的环境。

  • 涌现能力

    • 动作控制:能智能地响应键盘按键对应的动作,识别角色并正确地移动它,例如区分箭头键应该移动机器人而不是树木或云。

    • 生成反事实视频帧:从同一帧开始,人类玩家采取不同行动时能生成不同运动轨迹,可模拟反事实体验用于训练智能体。

    • 长跨度记忆:能够记住视野中消失的部分世界,然后在它们再次可见时准确地呈现它们。

    • 使用新的生成内容来生成长视频:可以即时地生成新的合理可信内容,并在长达一分钟的时间内保持一致性的世界,不过大多数示例持续10 - 20秒。

    • 模拟多种元素:在生成过程中能够模拟物体交互、动画、光照、物理反射以及非玩家角色(NPC)的行为,许多生成的场景画质接近AAA级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。

(二)与其他类似研究的区别

  • 与李飞飞创业公司WorldLabs的首个项目比较,两者都能基于单张图像生成可交互的3D场景,但有本质区别。WorldLabs是更进一步挖掘世界的物理本质,从图片出发,估计图片中不同景物的深度和相对关系,生成更加物理世界的3D环境建模,不仅仅是可互动视频,从这个描述看,李飞飞的研究项目似乎更接近真正的世界模型一些。

二、与马斯克合作做AI游戏

  • Genie 2刚一发布,DeepMind CEO哈萨比斯宣传完之后直接邀请马斯克一起来用世界模型制作AI游戏,马斯克欣然同意了。结合马斯克此前声称xAI将开办一家AI游戏工作室,两者联手的可能性较高。虽然目前用Genie2创建的游戏实际上不会那么有趣,因为每隔一分钟左右就会抹去进度,DeepMind将其定位为研究与创意工具,应用于快速原型设计和AI智能体评估等场景,但这一合作仍备受期待。