加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
如今,AI的几乎所有高级产品和模型都使用变压器体系结构。大型语言(LLM)的模型,例如GPT-4O,Llama,Gemini和Claude,基于变形金刚和其他AI应用程序,例如语音中的文本,自动语音识别,图像的生成和文本模型视频将变形金刚作为主要技术。
随着AI周围的噪音,不太可能在不久的将来放慢速度,现在是时候适当地给变压器了,所以我想解释一下它们的工作原理,为什么它们对于可扩展解决方案的增长以及为什么如此重要它们是LLM的基础。
变压器超过
简而言之,变压器是旨在建模数据序列的神经网络的架构,这使其非常适合诸如语言语言,句子完成,自动语音识别等任务的理想选择。变压器确实已成为许多此类建模序列任务的主要体系结构,因为注意力的主要机制可以很容易地并行化,这为输出的训练和执行提供了规模。
Transformer最初在2017年的文章“关注就是您需要的一切您需要的所有内容”中介绍,被称为编码器编码器的体系结构,该架构是专为语言翻译而设计的。明年,Google已发表了来自Transformers(Bert)的两次管理编码器表演,这些表演可以被视为第一个LLM之一,尽管目前按照当今的标准被认为很小。
从那时起 – 尤其是随着GPT模型从OpenAI的出现而加速的 – 趋势是训练具有大量数据,大量参数和更长的上下文窗口的越来越大的模型。
为了促进这种发展,有许多创新,例如:图形处理器的更先进的设备以及使用多个GPU进行培训的最佳软件;诸如量化和混合专家(MOE)之类的方法来减少记忆消耗;用于学习的新优化者,例如洗发水和ADAMV;有效计算注意力的方法,例如爆发和缓存KV。这种趋势可能会在可预见的未来继续。
自治在变压器中的重要性
根据应用程序,变压器模型遵循编码器的体系结构。编码器的组成部分学习了数据的向量表示,然后可以将其用于后续任务,例如对情绪的分类和分析。解码器组件接受文本或图像的向量或隐藏表示形式,并使用它来创建新文本,这使其可用于诸如句子的完成和求和之类的任务。因此,许多熟悉的现代模型,例如GPT家族,只是解码器。
编码器模型结合了两个组件,这使得它们可用于序列的序列的翻译和其他任务。对于编码器体系结构和解码器,主要组件是一层关注,因为这使模型可以维护文本中出现在文本中更早出现的单词上下文。
注意有两种口味:自杀和引起注意。自我吸收用于以同一顺序抓住单词之间的关系,而交叉用于以两个不同的序列捕获单词之间的关系。横向注意将模型和翻译过程中的编码器和解码器的组件连接。例如,这允许英语单词“草莓”成为法语单词“ freisa”。从数学上讲,自信和横向注意都是各种形式的乘积,可以使用图形处理器非常有效地制造矩阵。
由于注意力层,变形金刚可以更好地捕获长量文本分开的单词之间的关系,而以前的模型(例如重复的神经网络(RNN))和长期短期记忆(LSTM)的模型(LSTM)失去了跟踪文本早期的单词上下文。
模型的未来
当前,变压器是需要LLM的许多使用选项的主导体系结构,并从大多数研究和发展中受益。尽管这似乎很快就会在不久的将来发生变化,但最近引起的兴趣的模型的不同类别之一是状态空间(SSM),例如Mamba。这种高效的算法可以处理很长的数据序列,而变压器则受到上下文窗口的限制。
对我来说,变压器模型的最令人兴奋的应用是多模式模型。例如,GPT-4O OpenAI能够处理文本,音频和图像,其他供应商开始遵循。多模式应用程序非常多样化,从签署视频到语音克隆到图像分割(以及更多)。他们还提供了使AI对残疾人更实惠的机会。例如,在多模式使用的人声和音频组成部分的帮助下,盲人可以很好地服务。
这是一个令人兴奋的空间,具有披露新使用选项的巨大潜力。但是请记住,至少在可预见的将来,在很大程度上得到了变压器体系结构的支持。
Terrens Alsup是Finastra数据的高级科学家。
DatadeCisionMaker
欢迎来到VentureBeat社区!
DatadeCision的创建者是专家,包括从事工作的技术人员,可以交换与数据和创新有关的知识。
如果您想阅读有关高级想法和相关信息,高级实践以及数据和数据技术的未来,请加入DatadeCisionMakers。
您甚至可以考虑制作自己的文章的可能性!
从DatadeCision开发人员那里了解更多信息
Source link