人工智能可以解决错误,但我找不到它们:OpenAI Research在软件开发中分配了LLMS限制


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


大型语言模型(LLMS)可以改变软件的开发,但是尽管Openai Sam Altman的总主管声称模型可以替换低级工程师,但企业将不得不三思而后行地彻底替换软件工程师。

在新文章中,OpenAI研究人员详细描述了他们如何开发名为SWE-Lancer的LLM标准,以检查从真实的软件开发任务中可以赚取多少基础模型。该测试发现,尽管模型可以解决错误,但他们无法理解为什么存在错误,并继续犯更多的错误。

研究人员将Anpropic-C 1488的三个LLMS-GPT-4O和O1 OpenAI和SONNet的Claude-3.5委托给了一名自由职业者 – 工程师开发人员的任务,其紧急平台的任务为100万美元,其付款形式为100万美元。他们将任务分为两个类别:单个参与者的任务(错误解决或实施功能)和管理任务(其中角色模型 – 扮演游戏的模型作为经理,他们将选择最佳的报价来解决问题)。

研究人员写道:“结果表明,在我们的参考阶段,对边境语言模型的真正工作仍然很困难。”

测试表明,基础模型无法完全取代工程师 – 人。尽管他们可以帮助解决错误,但他们并没有完全可以为自由职业者赚钱。

带来自由型号

研究人员和其他100位专业软件工程师确定了UPWORK的潜在任务,而没有更改单词,将其显示给Docker容器以创建一组SWE-Lancer数据。他们解释说,该容器没有Internet访问权限,也无法访问GitHub“以避免清洁代码或请求的信息的可能模型。

该团队确定了764个单个参与者的任务,总计约414,775美元,从15分钟的错误到每周功能。这些任务包括概述自由职业者的提议和作业的出版,将支付585,225美元。

将任务添加到支出成本的成本中。

研究人员根据问题的标题和描述以及代码库的图表生成了提示。他们解释说,如果还有其他提案来解决该问题,“我们还使用问题的描述和建议列表产生了管理问题。”

从这里开始,研究人员通过测试的测试切换到。他们为使用这些生成的补丁的每个任务编写了戏剧性的测试,然后是“三重”专业开发人员。

文章解释说:“测试模仿用户的真正流动,例如应用程序的入口,复杂的动作的性能(创建财务交易)并检查模型的解决方案正如预期的那样有效的事实。”

测试结果

测试后,研究人员发现,没有一个模型赢得了100万美元的全部任务成本。 Claude 3.5十四行诗是最有效的模型,仅赚取208,050美元,并解决了个人参与者问题的26.2%。但是,研究人员指出:“它的大多数决定都是不正确的,对于可靠的部署来说,可靠性更高。”

对于大多数参与者的单独任务,模型都很好,Claude 3.5-Sonnet表现出了最佳结果,其次是O1和GPT-4O。

该报告解释说:“代理商在本地化方面成功,但不能导致导致部分或错误的决定的原因。” “代理商出人意料地快速地使用存储库搜索关键字来快速确定问题的根源,以快速找到相应的文件和功能 – 通常比人快得多。然而,他们经常证明对问题如何涵盖几个组件或文件的理解有限,并且没有考虑到主要原因,这导致了不正确或不足的复杂解决方案。当代理商试图复制问题是否失败的事实时,我们很少会发现案件,因为他找不到正确的文件或位置。

有趣的是,所有模型在需要推理来评估技术理解的经理的任务中效果更好。

这些参考测试表明,AI模型可以解决一些编码的“低级”任务,到目前为止,无法替代“低级”工程师的程序员。这些模型仍然花费时间,经常犯错,无法犯错以找到编码问题的主要原因。许多“低级”工程师的工作效果更好,但研究人员说,这可能不是很长。


Source link
Scroll to Top