停止猜测您的LLM为何断开:新的Anpropic工具向您展示并非如此


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


大型语言模型(LLMS)转换企业的工作方式,但是“黑匣子”的本质经常使企业挣扎着不可预测。解决这项关键任务后,Anpropic最近打开了他的开源跟踪工具,该工具使开发人员和研究人员能够直接理解和控制模型的内部工作。

该工具使研究人员可以探索莫名其妙的错误和开放体重模型中的意外行为。它还可以为某些内部功能提供颗粒状的薄LLM设置。

了解AI的内部逻辑

此用于跟踪该方案的工具是基于“机械解释”的,这是一个不断增长的领域,致力于理解AI模型如何基于其内部激活的功能,而不仅仅是观察其入口和输出。

尽管Anpropic关于该方案跟踪的初步研究将此方法应用于其自己的型号Claude 3.5 haiku,但开源工具将这种可能性扩展到开放量表。 Anpropic团队已经使用了此工具来跟踪诸如Gemma-22b和Llama-3.2-1B之类的型号中的链条,并发布了COLAB笔记本电脑,该电脑有助于在开放型模型上使用库。

该工具的核心在于生成归因图,即要追踪功能作为模型,处理信息并生成输出之间的相互作用的因果关系。 (功能是模型激活的内部模式,可以通过可理解的概念大致显示。)这类似于获得接线内部心理过程的详细方案。更重要的是,该工具允许“干预实验”,使研究人员能够直接更改这些内部功能,并观察AI内部状态的变化如何影响其外部答案,从而允许调试模型。

该工具与Neuronpedia集成,以理解和实验神经网络。

在Neuronpedia上进行电路跟踪(来源:拟人博客)
追踪神经基方案(来源:拟人博客)

实用性和对企业AI的未来影响

虽然Apropic方案跟踪工具是朝着解释和控制的AI迈出的重要一步,但它存在实际问题,包括与该工具的启动相关的高内存成本,以及解释详细归属图的整体难度。

但是,这些问题是高级研究的典型特征。机械解释是一个很大的研究领域,大多数大型实验室都开发了研究大语模型的内部工作的模型。得益于电路跟踪工具的开源,Antropic将使社区能够开发出更可扩展,自动化和更广泛的用户访问的解释工具,从而为了解LLMS所做的所有努力开辟了道路。

随着工具成熟的能力,了解LLM为何做出一定决定的能力会导致企业的实际优势。

跟踪该方案说明了LLM如何执行复杂的多阶段推理。例如,在他们的研究中,研究人员能够追踪模型如何从达拉斯推论到达拉斯,然后才能到达奥斯汀作为资本。他还揭示了先进的计划机制作为模型,在诗歌指导线性组成中预先选择了押韵单词。企业可以使用这些想法来分析其模型如何解决复杂问题,例如数据分析或法律推理。澄清计划或推理的内部阶段允许有针对性的优化,提高复杂业务流程的效率和准确性。

来源:ANTROP

此外,该方案的追踪在数值操作方面提供了更好的清晰度。例如,在他们的研究中,研究人员发现了模型如何处理算术算术,例如36+59 = 95,不使用简单的算法,而是通过平行方式和“搜索表”来获取数字。例如,企业可以使用此类想法进行内部计算的审核,从而导致数值结果,确定错误的起源并实现目标校正,以确保数据的完整性和LLM中与开源的计算的准确性。

对于全球部署,该工具给出了多语言序列的想法。先前对Anpropic的研究表明,模型同时使用语言和抽象,而与“通用心理语言”链的语言无关,并且更大的模型表现出更具概括性的作用。这可能有助于在不同语言的模型部署中调试本地化任务。

最后,该工具可以帮助打击幻觉并改善实际基础。该研究表明,这些模型对于未知请求的“默认失败”,这被“已知答案”的功能抑制了。当这种抑制性链“围困”时,可能会发生幻觉。

来源:ANTROP

除了调试现有问题之外,这种机械理解还为瘦身LLM的新机会打开了。企业可以识别并瞄准控制所需或不良特征的特定内部机制,而不是简单地通过试验和错误调节输出行为。例如,理解该模型的“助手角色”如何无意间包括流离失所的薪酬模型,如人类研究所示,开发人员可以准确配置负责对齐的内部方案,从而导致AI的更可靠且在道德上一致的部署。

由于LLM越来越多地整合到企业的关键功能中,因此它们的透明度,解释和控制变得越来越关键。这种新一代的工具可以帮助克服AI强大的能力与人类理解力,增强基本信任的差距,并确保企业可以部署可靠,验证并与其战略目标一致的AI系统。


Source link
Scroll to Top