除了一般标准:YourBench如何允许企业使用实际数据评估AI模型


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


人工智能模型的每个版本都不可避免地包括广告图表,其在此参考测试或本评估矩阵中如何超越竞争对手。

但是,这些测试通常会检查一般机会。对于想要根据模型使用模型和大语言代理的组织,更难评估代理或模型实际理解其特定需求的程度。

实施库存储库的模型启动了Tyrbench,这是一种开源工具,开发人员和企业可以在其中创建自己的标准,以根据其内部数据检查模型的性能。

研究小组的一部分Sumuk Shashidhar宣布了X上的Youurbench。此功能提出了“用户比较分析和从任何文档中创建合成数据的创建。这是改善模型标记工作方式的重要一步。”

他补充说,拥抱的面孔知道:“对于许多使用选项,模型对您的特定任务的执行程度非常重要。创意使您可以评估模型对您重要的东西。”

创建用户评估

脸部在文章中的拥抱说,泰班族正在起作用,重现了巨大的多任务语言理解(MMLU)的子集“最低源文本的使用,以少于15美元的成本达到的总成本,同时完美地保留了相对生产力的相对模型。”

组织必须在Vashbanch工作之前首先处理其文档。这包括三个阶段:

  • 吞咽文件 “标准化”文件格式。
  • 语义菜 断开文档以遵守上下文窗口上的限制,并集中模型的注意力。
  • 汇总文件

接下来是生成问题和答案的过程,从有关文档的信息中产生问题。在这里,用户选择LLM,以查看哪些最佳答案问题。

Huging Face Tested Youbench with Deepseek V3 and R1 Models, Alibaba’s Qwen Models Including Model QWEN QWQ, Mistral Large 2411 and Mistral 3.1 Small, LLAMA 3.1 and LLAMA 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite and Gemma 3, GPT-4O, GPT-4O-Mini, And O3 Mini, and Claude 3.7 Sonnet and Claude远足。

Shashidhar说,Heging Face还提供了模型的成本分析,发现Qwen和Gemini 2.0 Flash“以非常低的成本产生了巨大的价值”。

计算限制

但是,收到了基于组织文档的LLM用户标准的创建。创意需要大量的计算能力来工作。 Shashidhar对X表示,该公司“增加了能力”,以至于可以。

面部的面部控制着几个图形处理器,并与Google等公司的合作伙伴使用其云服务来完成输出任务。 VentureBeat伸出手,以拥抱使用YouCbench计算机的脸。

Bringerking并不完美

控制指标和其他评估方法使用户了解模型的工作原理,但他们并不完全了解模型每天如何工作。

一些人甚至表示怀疑,控制测试显示对模型的限制,并可能导致有关其安全性和性能的错误结论。该研究还警告说,本佐雷斯可能会“误导”。

但是,当市场上有很多选择时,企业现在无法避免对模型进行评估,而技术领导者则证明使用AI模型的成本不断增长。这导致了测试模型的性能和可靠性的各种方法。

Google DeepMind提出了一大批事实,这些事实检查了该模型根据文档中信息生成准确答案的能力。耶鲁大学和Growhua大学的一些研究人员开发了指导LLMS编码为其运作的企业的控制指标。


Source link
Scroll to Top