Амбиции по ускорению научного открытия через ИИ были давними, с ранними усилиями, такими как Ок -хребет прикладного проекта искусственного интеллекта. Обзоры литературы, формулируют гипотезы, проектируют эксперименты, анализируют результаты и даже генерируют научные статьи. Кроме того, они могут оптимизировать научные рабочие процессы, автоматизируя повторяющиеся задачи, позволяя исследователям сосредоточиться на концептуальной работе более высокого уровня. Однако, несмотря на эти многообещающие события, оценка исследований, основанных на искусственном интеллекте, остается сложной из-за отсутствия стандартизированных критериев, которые могут всесторонне оценить свои возможности в разных научных областях.
Недавние исследования рассмотрели этот пробел, внедрив критерии, которые оценивают агенты искусственного интеллекта по различным задачам по разработке программного обеспечения и машинного обучения. Хотя существуют фреймворки для тестирования агентов ИИ на четко определенных задачах, таких как генерация кода и оптимизация модели, большинство современных критериев не полностью поддерживают открытые проблемы исследований, где могут возникнуть множество решений. Кроме того, эти рамки часто не имеют гибкости в оценке различных результатов исследований, таких как новые алгоритмы, модельные архитектуры или прогнозы. Для продвижения исследований, основанных на AI, существует необходимость в системах оценки, которые включают более широкие научные задачи, облегчают эксперименты с различными алгоритмами обучения и приспосабливают к различным формам исследовательских вкладов. Создавая такие всеобъемлющие рамки, поле может приблизиться к реализации систем ИИ, способных независимо привести к значимому научному прогрессу.
Исследователи из Университетского колледжа Лондона, Университета Висконсин -Мэдисон, Оксфордский университет, Мета и другие институты ввели новую структуру и эталон для оценки и развития агентов LLM в исследованиях искусственного интеллекта. Эта система, первая спортивная среда для задач ML, облегчает изучение методов RL для обучения агентов ИИ. The Benchmark, Mlgym-Bench, включает 13 открытых задач, охватывающих компьютерное зрение, NLP, RL и теорию игр, требующие реальных исследовательских навыков. Шестиуровневая структура классифицирует возможности AI Research Agent Agent, поскольку Mlgym-Bench фокусируется на уровне 1: базовое улучшение, где LLMS оптимизирует модели, но не имеет научных вкладов.
Mlgym – это структура, предназначенная для оценки и разработки агентов LLM для исследовательских задач ML путем обеспечения взаимодействия с средой оболочки посредством последовательных команд. Он включает в себя четыре ключевых компонента: агенты, среда, наборы данных и задачи. Агенты выполняют команды Bash, управляют историей и интегрируют внешние модели. Среда обеспечивает безопасное рабочее пространство на основе Docker с контролируемым доступом. Наборы данных определяются отдельно от задач, что позволяет повторно использовать через эксперименты. Задачи включают сценарии оценки и конфигурации для различных проблем ML. Кроме того, MLGYM предлагает инструменты для поиска литературы, хранения памяти и итерационной проверки, обеспечивая эффективные эксперименты и адаптивность в долгосрочных рабочих процессах исследований искусственного интеллекта.
В исследовании используется модель SWE-AGENT, предназначенная для среды MLGYM, после того, как в стиле реагирования процесс принятия решений. Пять современных моделей-Openai O1-Preview, Gemini 1.5 Pro, Claude-3,5-Sonnet, Llama-3-405B-Instruct и GPT-4O-оцениваются в стандартизированных настройках. Производительность оценивается с использованием результатов AUP и профилей производительности, сравнивая модели на основе лучших попыток и лучших показателей представления. OpenAI O1-Preview достигает самой высокой общей производительности, при этом Gemini 1.5 Pro и Claude-3,5-Sonnet следуют. В исследовании подчеркивается профили производительности в качестве эффективного метода оценки, демонстрируя, что OpenAI O1-Preview неизменно входит в число лучших моделей по различным задачам.
В заключение, исследование подчеркивает потенциал и проблемы использования LLM в качестве научных агентов рабочих процессов. Mlgym и Mlgymbench демонстрируют адаптивность по различным количественным задачам, но выявляют пробелы в улучшении. Расширение за пределы ML, тестирование междисциплинарного обобщения и оценка научной новизны является ключевыми областями для роста. В исследовании подчеркивается важность открытости данных для улучшения сотрудничества и обнаружения. Поскольку исследования ИИ прогрессируют, достижения в области рассуждений, архитектуры агентов и методов оценки будут иметь решающее значение. Укрепление междисциплинарного сотрудничества может гарантировать, что агенты, управляемые ИИ, ускоряют научное открытие при сохранении воспроизводимости, проверки и целостности.
Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.
🚨 Рекомендуемая Платформа ИИ с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)