除GPT体系结构外:为什么Google可以更改LLM扩展的扩展


加入企业领导人信任的活动近二十年。 VB变换结合了建立企业真实策略的人们。了解更多


上个月,Google DeepMind以及一系列新的AI工具和创新,引入了双胞胎的扩散。该实验研究模型使用基于扩散的方法来创建文本。传统上,大型语言模型(LLMS),例如GPT和双胞胎本身,依赖于自动-Gang,这是一种逐步的方法,其中每个单词都是基于上一个单词生成的。扩散语言(DLMS)的模型,也称为基于扩散(DLLM)的大语言模型,使用一种在生成图像中更常见的方法,从随机噪声开始,然后逐渐将其处理为相干输出。这种方法可显着提高发电率,并可以提高连贯性和顺序。

目前,双胞胎的扩散作为实验演示。 订阅等待列表以获取访问场地

(编者注意:我们解开范式的变化,例如基于扩散的语言模型,以及在生产中启动它们所需的内容 VB Transform,6月24日至25日在旧金山与Google DeepMind,LinkedIn和其他企业和企业一起。

理解反对授权的扩散

扩散和自动降低是从根本上不同的方法。 Auto -Sorel方法顺序生成文本,一次用一个令牌预测。尽管此方法提供了强烈的连贯性和上下文跟踪,但它可以计算出强度和缓慢的速度,尤其是对于长时间内容而言。

相反,扩散模型从随机噪声开始,该噪声逐渐变成连贯的输出。应用该语言时,该技术具有多个优点。文本块可以并行处理,可能会产生整个细分市场或更高速度的报价。

据报道,双胞胎的扩散每秒可以产生1000-2000令牌。相反,Flash Gemini 2.5的平均输出功率速度为每秒272.4个令牌。此外,可以在处理过程中纠正生成错误,精度提高和幻觉数量减少。从代币级别的细化精度和控制的角度来看,可以存在妥协。但是,速度的提高将改变众多应用程序的游戏。

扩散文本的产生如何起作用?

在培训期间,DLMS的工作,在许多步骤中逐渐通过噪音破坏报价,直到最初的提案变得完全无法识别为止。然后,该模型学会了逐步转换此过程,从所有嘈杂版本中重建初始句子。得益于迭代澄清,他学会了对教育数据中可信句子的全部分布进行建模。

尽管尚未披露双胞胎扩散的细节,但扩散模型的典型教学方法包括以下关键阶段:

正向扩散: 在训练集中的每个图像中,逐渐添加了几个周期的噪声(通常从500到1000),直到与随机噪声无法区分。

反向扩散: 该模型学会了从薪水过程中转动的每个步骤,实际上,研究如何一次“否认”一个阶段损坏的报价,最终恢复原始结构。

该过程重复数百万次,并具有多种样品和噪声水平,这使该模型可以研究可靠的双重审查函数。

训练后,该模型可以生成全新的句子。通常,DLMS需要条件或输入,例如提示,类标记或嵌入式,以将一代引导到所需的结果。该条件被引入双截面的每个阶段,该阶段形成了噪声的初始下降到结构化和连贯的文本中。

基于扩散模型的优点和缺点

在接受VentureBeat的采访时,与双胞胎的扩散项目相比,Google DeepMind的研究人员Brendan O’Donoheu是一名主要研究人员,其中一个主要是关于扩散方法的一些优势。根据O’Donohee的说法,扩散方法的主要优点如下:

  • 较低的延迟: 漫射模型可以在时间少得多的时间序列,而不是自动向导模型。
  • 自适应计算: 扩散模型将根据任务的复杂性而收敛到具有不同速度的令牌序列。这使模型可以减少资源(并具有较低的延迟)来完成简单任务,而在更复杂的任务上则更多。
  • 不适当的推理: 从Denoiser的两个指导的关注中,令牌可以在同一代人中参与未来的令牌。这使您可以实现难以忍受的推理,并允许模型在块中进行全局更改以创建更连贯的文本。
  • 迭代澄清 /自我纠正: 屈辱过程包括一个可以引入错误的示例,如模型授权。但是,与禁忌模型不同,令牌被传输回Denoser,然后有机会纠正错误。

O’Donoghue还指出了主要缺点:“服务成本较高,而第一个(TTFT)的时间更高,因为Auto -Auto -Admistery模型将立即创建第一个令牌。对于扩散,只有当整个令牌准备就绪时,第一个令牌才能出现。”

表现

Google说,双子座扩散性能与Flash-Lite Gemini 2.0相当。

参考类型双胞胎的扩散双子座2.0闪光灯
livecodebench(V6)代码30.9%28.5%
BigCodeBench代码45.4%45.8%
LBPP(V2)代码56.8%56.0%
SWE板凳检查*代码22.9%28.5%
人类代码89.6%90.2%
MBPP代码76.0%75.8%
GPQA钻石科学40.4%56.5%
Aime 2025数学23.3%20.0%
大棍子很难推理15.0%21.0%
全球MMLU(LITE)多种语言69.1%79.0%

*非主管评估(仅用于编辑一圈),最大提示长度为32,000。

使用几个标准比较了这两个模型,并根据该模型在第一次尝试时给出了正确答案的估计值。双胞胎的扩散在编码和数学测试中表现出色,而Flash-Lite Gemini 2.0在推理,科学知识和多语言可能性方面具有优势。

随着双扩散的发展,没有理由认为其性能不会赶上更具成熟的模型。根据O’Donohee的说法,这两种方法之间的差距“基本上是在控制性能方面封闭的,至少在我们捕捉的相对较小的尺寸中。

双扩散的测试

VentureBeat获得了实验示范的访问。当我们经历了双胞胎通过步骤扩散时,我们注意到的第一件事是速度。当启动Google提供的提示提示时,包括创建交互式HTML应用程序(例如TAC TOE Xylophone和Planet)时,每个请求在不到三秒钟内执行,以每秒600至1300个令牌的速度执行。

为了使用真实应用程序检查其性能,我们要求Gemini扩散使用下一个线索创建视频聊天接口:

Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

在不到两秒钟的时间内,双胞胎的扩散创建了一个工作界面,并以初步观看视频和听力计。

尽管这并不是一个困难的实施,但这可能是MVP的开始,这可以通过少量进一步的线索完成。请注意,Flash Gemini 2.5还创建了一个工作界面,尽管速度略慢(大约七秒钟)。

双胞胎的扩散还包括“即时编辑”,即可以使用最小提示的文本或代码实时插入和编辑的模式。即时编辑对于多种类型的文本编辑有效,包括对语法的校正,更新文本以瞄准读者的各个字符或添加关键字SEO。它对于诸如ReatActoring代码,将新功能添加到应用程序或将现有代码基础添加到其他语言之类的任务也很有用。

为DLM使用企业的示例

可以肯定地说,任何需要快速响应的应用程序都可以从DLM技术中获得好处。这包括实时的应用程序和低延迟的应用程序,例如口语AI和聊天机器人,实时转录和翻译,或用于自动填充IDE和编码的助手。

根据O’Donohee的说法,例如,使用“构建 – 编辑中的构建的应用程序,吸引了一段文本并进行了一些更改,则扩散模型是不适用的。”由于“双向关注提供了毫无意义的推理”,DLM在理性,数学和编码方面的问题也具有优势。

DLM仍处于起步阶段;然而,该技术可能会改变创建语言模型的方式。他们不仅生成比自动回归模型高得多的文本,而且还可以返回和纠正错误的能力,这意味着最终,它们还可以以更高的准确性给出结果。

双胞胎的扩散包括在增长的DLMS生态系统中,其中两个明显的例子是由实验室开发的汞,以及GSII的开源模型Llada。这些模型共同反映了一种更广泛的冲动,该冲动是扩散语言的产生,并为传统自动通讯提供了可扩展的,平行的替代方案。


Source link
Scroll to Top