AI Odyssey模型将视频变成互动世界

伦敦AI实验室Odyssey启动了研究模型的初步观看，该模型将视频变成互动世界。最初，Odyssey团队着眼于电影和游戏制作的世界模型，遇到了一个可能全新的娱乐环境。

AI Odyssey模型生成的交互式视频响应真实时间入口。您可以使用键盘，电话，控制器甚至语音命令与它进行交互。来自奥德赛的家伙将他作为“饥饿的早期版本”。

主要AI可以每40毫秒生成逼真的视频框架。这意味着，当您按下按钮或做出手势时，视频几乎立即做出反应，从而产生了您实际影响这个数字世界的幻觉。

奥德赛报道：“今天，这种经历就像研究大会梦 – 布置，不稳定但毫无疑问是新的。”至少目前，我们并没有谈论AAA游戏质量的抛光视觉效果。

让我们暂时获得一些技术。 AI产生的交互式视频技术与标准视频游戏或CGI不同的区别是什么？这一切都取决于奥德赛所说的“世界模型”。

与一次生成整个剪辑的传统视频模型不同，世界模型在框架后面起作用，以根据当前状态和任何用户输入来预测什么。这类似于序列中的大型语言模型如何预测以下单词，但更复杂，因为我们谈论的是具有高分辨率的视频帧，而不是关于单词。

正如奥德赛所说，“从本质上讲，世界模型是一个动态模型。”每次您互动时，模型都会采用当前状态，您的动作和发生的事情，然后分别生成下一个视频框架。

结果似乎比传统游戏更有机和不可预测。没有预先编程的逻辑，上面写着：“如果玩家做X，那会发生这种情况”，这是根据他从观看无数视频中学到的东西，AI会尽可能地发生下一步发生的一切。

这样的东西的建设并不是在公园里散步。随着时间的流逝，在AI产生的互动视频的帮助下，最大的障碍之一可以保持稳定。当您根据先前的帧生成每个帧时，小错误可能会迅速恶化（AI现象的研究人员称为“漂移”。）

为了应对这一点，奥德赛使用了他们所谓的“狭窄分配模型” – 实际上，在一般视频中预先安排了他们的AI，然后在较小的媒体中进行设置。这种折衷意味着较少的多样性，但是稳定性更好，因此一切都不会变成一个奇怪的混乱。

该公司表示，他们已经在下一代模型上取得了“快速进步”，显然，该模型显示了“更丰富的像素范围，扬声器和动作”。

实时推出所有这些时尚的AI技术并不便宜。目前，依靠散布在美国和欧盟的H100图形处理器的群集，每小时的基础架构的价格从0.80至1.60磅（1-2）个用户小时。

流式传输视频似乎很昂贵，但是与创建传统游戏或电影内容相比，它非常便宜。奥德赛预计这些成本将进一步通过，因为这些模型将变得更加有效。

在整个历史上，新技术诞生了新的讲故事形式 – 从洞穴的绘画到书籍，摄影，广播，电影和视频游戏。奥德赛认为，AI产生的交互式视频是此进化的下一步。

如果它们是对的，我们可以看一下某事的原型，这将改变娱乐，教育，广告等。想象一下一个视频，您可以在其中练习您教书或旅行的技能，可以从沙发学习目的地。

显然，对研究的初步观看只是朝着这一愿景迈出的一小步，而不是成品的概念证明。然而，这是一个有趣的观察，即当世界产生的世界成为互动游乐场，而不仅仅是被动实验时，这是可能的。

您可以尝试研究初步观看 这里场地

参见： 电报和Xai Forge Grok AI交易

想进一步了解人工智能和行业领导者的大数据吗？ 检查在阿姆斯特丹，加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动，包括智力自动化会议，Blockx，一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

You might also enjoy