AI Odyssey模型将视频变成互动世界

伦敦AI实验室Odyssey启动了研究模型的初步观看,该模型将视频变成互动世界。最初,Odyssey团队着眼于电影和游戏制作的世界模型,遇到了一个可能全新的娱乐环境。

AI Odyssey模型生成的交互式视频响应真实时间入口。您可以使用键盘,电话,控制器甚至语音命令与它进行交互。来自奥德赛的家伙将他作为“饥饿的早期版本”。

主要AI可以每40毫秒生成逼真的视频框架。这意味着,当您按下按钮或做出手势时,视频几乎立即做出反应,从而产生了您实际影响这个数字世界的幻觉。

奥德赛报道:“今天,这种经历就像研究大会梦 – 布置,不稳定但毫无疑问是新的。”至少目前,我们并没有谈论AAA游戏质量的抛光视觉效果。

不是您的标准视频技术

让我们暂时获得一些技术。 AI产生的交互式视频技术与标准视频游戏或CGI不同的区别是什么?这一切都取决于奥德赛所说的“世界模型”。

与一次生成整个剪辑的传统视频模型不同,世界模型在框架后面起作用,以根据当前状态和任何用户输入来预测什么。这类似于序列中的大型语言模型如何预测以下单词,但更复杂,因为我们谈论的是具有高分辨率的视频帧,而不是关于单词。

正如奥德赛所说,“从本质上讲,世界模型是一个动态模型。”每次您互动时,模型都会采用当前状态,您的动作和发生的事情,然后分别生成下一个视频框架。

结果似乎比传统游戏更有机和不可预测。没有预先编程的逻辑,上面写着:“如果玩家做X,那会发生这种情况”,这是根据他从观看无数视频中学到的东西,AI会尽可能地发生下一步发生的一切。

Odyssey使用生成的AI的视频解决了历史问题

这样的东西的建设并不是在公园里散步。随着时间的流逝,在AI产生的互动视频的帮助下,最大的障碍之一可以保持稳定。当您根据先前的帧生成每个帧时,小错误可能会迅速恶化(AI现象的研究人员称为“漂移”。)

为了应对这一点,奥德赛使用了他们所谓的“狭窄分配模型” – 实际上,在一般视频中预先安排了他们的AI,然后在较小的媒体中进行设置。这种折衷意味着较少的多样性,但是稳定性更好,因此一切都不会变成一个奇怪的混乱。

该公司表示,他们已经在下一代模型上取得了“快速进步”,显然,该模型显示了“更丰富的像素范围,扬声器和动作”。

实时推出所有这些时尚的AI技术并不便宜。目前,依靠散布在美国和欧盟的H100图形处理器的群集,每小时的基础架构的价格从0.80至1.60磅(1-2)个用户小时。

流式传输视频似乎很昂贵,但是与创建传统游戏或电影内容相比,它非常便宜。奥德赛预计这些成本将进一步通过,因为这些模型将变得更加有效。

互动视频:故事的下一个故事?

在整个历史上,新技术诞生了新的讲故事形式 – 从洞穴的绘画到书籍,摄影,广播,电影和视频游戏。奥德赛认为,AI产生的交互式视频是此进化的下一步。

如果它们是对的,我们可以看一下某事的原型,这将改变娱乐,教育,广告等。想象一下一个视频,您可以在其中练习您教书或旅行的技能,可以从沙发学习目的地。

显然,对研究的初步观看只是朝着这一愿景迈出的一小步,而不是成品的概念证明。然而,这是一个有趣的观察,即当世界产生的世界成为互动游乐场,而不仅仅是被动实验时,这是可能的。

您可以尝试研究初步观看 这里场地

参见: 电报和Xai Forge Grok AI交易

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

Source link

Scroll to Top