为什么热圈企业抹布失败:Google研究引入了“足够的上下文”解决方案


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


Google研究人员的一项新研究介绍了“足够的环境”,这是理解和改善搜索系统以搜索大型语言(LLM)的新前景。

这种方法使您可以确定LLM是否具有足够的信息来准确响应请求,这是开发人员创建真实企业的关键因素,在这种情况下,可靠性和实际正确性至关重要。

抹布的不断问题

抹布系统已成为创建更实际且可及时测试AI用途的基石。但是,这些系统可能具有不良功能。即使向收到的证据呈现,他们也可以自信地提供错误的答案,这些证据因与案例无关的信息分散注意力,或者无法从长期文本片段中正确提取答案。

研究人员在他们的文章中说:“理想的结果是,如果提供的上下文包含足够的信息来回答该问题与模型的参数知识相结合,则LLM提出了正确的答案。否则,该模型应避免答案和/或设置其他信息。”

实现这种理想场景需要构造模型,以确定所提供的上下文是否可以正确回答问题并有选择地使用它。以前的尝试考虑了这一点,研究了LLM的行为如何使用不同程度的信息。然而,Google Paper声称:“尽管目标显然是要了解LLM在做或没有足够信息来响应请求时的行为,但以前的工作无法解决此额头。”

足够的背景

为了应对这一点,研究人员介绍了“足够背景”的概念。在高级别上,根据提供的上下文是否包含足够的信息来响应该请求,将输入样品分类。这将上下文分为两种情况:

足够的背景:上下文具有所有必要的信息来给出最终答案。

上下文不足:在上下文中,没有足够的必要信息。这可能是由于请求需要在上下文中不存在的专业知识,或者信息不完整,不可信或矛盾。

来源:Arxiv

该指定是通过考虑问题和相关上下文而无需回答地球来确定的。这对于在输出期间无法获得地球答案的实际应用至关重要。

研究人员已经开发了一个基于LLM的“自动持有人”,以使副本的标记自动化为具有足够或不足的背景。他们发现,Google Gemini 1.5 Pro模型,其中一个示例(1-shot)最好在上下文的充分性分类中执行,达到高F1和准确性。

文章指出:“在实际情况下,我们不能期望评估模型的性能时的候选人答案。因此,建议仅使用仅使用请求和上下文来使用的方法。”

关于抹布的LLM行为的关键结论

通过这种充分环境的镜头对各种模型和数据集的分析揭示了一些重要的理解。

如预期的那样,当上下文足够时,模型通常达到更高的精度。但是,即使有足够的背景,这些模型倾向于造成比避免的频率更高。当上下文不够的情况下,情况就会变得更加复杂,因为模型既表现出更高的禁欲,又显示出一些模型的幻觉。

有趣的是,尽管RAG通常会提高整体性能,但在没有足够的信息时,其他上下文也可以降低模型避免答案的能力。研究人员说:“这种现象可能是由于模型在存在某种上下文信息的情况下的信心而产生的,这会导致更高的幻觉趋势,而不是节制。”

特别奇怪的观察是,即使所提供的上下文被认为不足,模型有时有时提供正确答案的能力。尽管自然假设是模型已经从初步培训(参数知识)中“知道”答案,但研究人员发现了其他因素。例如,上下文可以帮助消除模型知识中桥梁的请求或空白,即使它不包含完整的答案。模型的这种能力有时即使有限的外部信息也会取得成功,从而对抹布系统的设计产生更大的影响。

来源:Arxiv

该研究的作者兼高级研究员Google的合伙人Cyrus Rashtchian详细讨论了这一点,强调了基本LLM的质量仍然至关重要。他对VentureBeat说:“对于一个非常好的企业的抹布系统,应根据搜索的标准评估该模型。”他建议搜索应被视为“他的知识的增加”,而不是唯一的真理根源。他解释说:“基本模型仍然有必要填补差距或使用上下文线索(在培训前使用知识告知这些线索)出于正确的原因。

减少抹布系统的幻觉

鉴于与没有抹布的大气相比,模型可以幻觉而不是避免使用,尤其是在抹布中,研究人员研究了使其软化的方法。

他们开发了“选择性一代”的新结构。该方法使用一个小的单独的“干预模型”来决定主要LLM是否应通过在准确性和覆盖范围(响应问题的百分比)之间提供受控折衷来生成答案还是避免。

该结构可以与任何LLM结合使用,包括双子座和GPT等专有模型。研究表明,在该结构中使用足够的上下文作为附加信号,导致对各种模型和数据集的响应请求的准确性显着更高。该方法改善了双子座,GPT和Gemma模型的2-10%模型的答案之间的正确答案。

为了在业务检查中提高2-10%,Rashtchian提供了AI支持的特定示例。他说:“您可以想象客户询问他们是否可以享受折扣。” “在某些情况下,由此产生的上下文是最新的,并且具体描述了持续的促销活动,因此模型可以自信地回答。但是,在其他情况下,上下文可以是“陈旧”的,描述了几个月前的折扣,或者也许他有特定的条件。因此,该模型可以说:“我不确定”或“您必须与客户交谈以获取其他案例,以获取其他信息。”

该团队还调查了准确的设置以鼓励戒酒。这包括带有示例的培训模型,其中答案被“我不知道”而不是原始土地取代,尤其是对于背景不足的情况。直觉是,在此类例子中进行了明确的培训可以使该模型禁欲,而不是幻觉。

结果混合在一起:微妙的模型通常具有更高的正确答案频率,但通常仍然幻觉,通常比弃权的更多。文章得出的结论是,尽管准确的调整可以帮助,但“有必要更多地努力制定可以平衡这些目标的可靠策略。”

在真实的抹布系统中应用足够的上下文

对于努力将这些想法应用于自己的抹布系统的企业,例如为客户提供内部知识基础或AI支持的企业,Rashtchian描述了一种实际的方法。他首先建议将一组数据与对组装在一起,这些数据呈现模型可以在生产中可以进行的示例。然后,使用基于LLM的Autorama来标记每个示例的示例,这些示例具有足够或不足的上下文。

Rashtchian说:“这已经给出了一个充分的环境的良好估计。” “如果这不到80-90%,那么可能有很多改善搜索的机会,或者知识的基本方面是一个很好的症状。”

Rashtchian建议团队“基于示例,以充分和不足的背景来对模型的答案进行分层。”在研究这两个单独的数据集中的指标时,团队可以更好地了解性能的细微差别。

他指出:“例如,我们看到模型更有可能提供错误的答案(与主要事实有关),当它给出了不足的上下文时。这是另一种观察到的症状。”

尽管基于LLM的Autorama表现出很高的精度,但企业团队可能会询问额外的计算成本。 Rashtchian解释说,可以为诊断目的控制开销成本。

“我要说的是,基于LLM的权威在少量测试集(例如500-1000个示例)上应该相对便宜,这可以在自主模式下进行,因此他说的是他所需的时间。来自其搜索组件的相似性指标等。来自LLM或启发式方法的附加信号的存在可能导致新的理解。透明


Source link
Scroll to Top