加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
AI模型的工作方式与用于培训或设置的数据相同。
标记的数据是机器学习(ML)和生成AI的基本元素。标记的数据是标记的信息,旨在帮助人工智能模型以了解培训期间的上下文。
由于企业参与了人工智能应用程序的实施,因此隐藏的狭窄位置通常不是技术,这是收集,监督和标记该域特有数据的过程的许多月。这种“数据标签税”迫使技术领导者在存入部署或从普通模型中采取非最佳效率之间进行选择。
Databricks遵守此问题的直接目标。
本周,该公司发布了一种新方法,称为“自适应时间优化”(TAO)。该方法的主要思想是启用企业(LLM)的大型语言模型(LLM)的配置,仅使用公司已经具有标签的输入数据,需要超过成千上万个提到示例的传统设置的结果的结果。 Databricks最初是作为Lakehouse数据平台的供应商,近年来越来越集中于AI。 Databricks以13亿美元的价格收购了Mosaicml,并稳步部署了帮助开发人员创建的工具我很快。数据库中的马赛克研究小组开发了一种新的TAO方法。
“获得标记的数据很复杂,不良标签将导致结果不佳,这就是为什么Frontier Labs使用数据标签供应商购买昂贵的数据的原因,” VentureBeat,Brandon Kui,培训的加强和DataBricks的高级科学员工。 “我们想与客户见面,标签是采用企业的障碍,而陶已经不再有。”
技术创新:像Tao Revents LLM精美环境
陶以其核心改变了开发人员如何个性化特定领域模型的范式。
Tao不是需要配对的输入示例的传统方法,而是使用强化培训和系统研究来改善模型,仅使用请求的示例。
技术管道使用四种不同的机制一致:
回答的研究一代:该系统接受非形状的输入示例,并使用探索解决方案空间的快速邀请的高级工程方法为每个示例生成了几个潜在的答案。
校准的薪酬建模:根据Databricks薪酬模型(DBRM)评估生成的答案,该模型是专门设计的,旨在评估企业的绩效,重点是正确性。
加强 基于学习的模型优化:然后,通过学习强化来优化模型的参数,这本质上是教导的 直接产生高答案的模型。
飞轮的连续数据:由于用户与详细系统进行交互,因此新的输入会自动收集,创建一个自我改良的周期,而无需付出其他努力来标记一个人。
计算测试时间不是一个新想法。 OpenAI使用测试时间开发了O1推理模型,DeepSeek应用了类似的方法来教授R1模型。 TAO与计算测试时间的其他方法的区别是,尽管它在训练过程中使用了其他计算,但最终情绪模型的成本成本与原始模型相同。这为部署生产提供了关键的优势,在该生产中,使用输出成本扩展。
CUI解释说:“ TAO仅在学习过程框架内使用其他计算计算;它不会在训练后增加模型的产出成本。” “从长远来看,我们认为TAO和计算方法(例如O1和R1)将是额外的,您可以同时做。”
与传统准确环境相比,测试揭示了性能的惊人优势
Databricks的研究表明,TAO不仅与传统的准确调整相对应,还对应于它。在与企业有关的几家企业中,数据库声称该方法更好,尽管它使用了较少的人类努力。
在FinanceBench(财务文件和答案)上,TAO提高了Llama 3.1 8B的性能24.7个百分点,而Llama 3.3 70B则提高了13.4分。为了使用鸟类-SQL标准生成SQL,适用于数据链条方言,Tao分别提供了19.1和8.7分的改进。
最值得注意的是,Llama 3.3 70B在这些标准模型中遇到了GPT-4O和O3-MINI性能的性能,通常在生产媒体上工作的价格昂贵10-20倍。
对于技术人员来说,这是一个令人信服的价值提议:扩展与特定任务的优质类似物相比,可以扩展较小,更实惠的模型的能力,而传统上没有必要的广泛标记成本。

陶为企业市场提供了优势
尽管陶提供了明确的成本优势,但允许使用较小,更有效的模型,但其最重要的重要性可能是加速市场的时间。
库伊强调:“我们认为道为企业节省了比金钱更有价值的东西:它节省了他们的时间。” “通常,获得明显的数据需要越过组织边界,创建新的流程,迫使专家在主题上进行标记和检查质量。企业没有几个月的时间来使几个业务部门均衡使用人工智能的原型之一。”
这次,压缩创造了战略优势。例如,一家介绍了分析合同的决定的金融服务公司可以开始部署和迭代,只使用选择性合同,而不是法律团体对数千个文件标签的期望。同样,医疗保健组织可以仅使用医生的请求来改善临床决策支持系统,而无需配对专家答案。
库伊说:“我们的研究人员花费大量时间与客户交谈,了解他们在创建AI系统时面临的真正问题,并开发新技术来克服这些问题。” “我们已经在许多公司应用程序中都使用了陶,并帮助客户不断地执行和改进其模型。”
这对那些做出决定的人意味着什么
对于寻求管理人工智能引入的企业而言,陶是弯曲的潜在点,即专业的AI系统的部署方式。高质量的实现,特定于域,没有广泛的明显数据集的性能,它消除了广泛实施AI的最重要障碍之一。
这种方法对具有丰富的非结构化数据和特定要求的组织特别有益,但是手动标签的资源有限,是许多企业发现自己的一种。
随着人工智能在竞争优势中变得越来越重要,领导者将从落后人群中分离出从概念到部署的时间,同时增加概念的时间。似乎Tao将成为一项技术,有可能允许企业在数周而不是几个月或几个月内引入AI的专业功能。
当前,TAO仅在Databricks平台上可用,并且可以在私人初步查看。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link