Google Alphaevolve: AI -Agent, который восстановил 0,7% компьютера Google – и как его скопировать


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Новый Alphaevolve’s от Google показывает, что происходит, когда ИИ -Агентные выпускники от лабораторной работы до производственных работ, и у вас есть одна из самых талантливых технологических компаний.

Созданный Google DeepMind, система автономно переписывает критический код и уже платит за себя в Google. Он разбил 56-летний рекорд в умножении матрицы (ядро многих рабочих нагрузок машинного обучения) И Объяснил 0,7% компьютерных мощностей через глобальные центры обработки данных компании.

Эти основные подвиги важны, но более глубокий урок для корпоративных технологических лидеров – это Как Alphaevolve их убирает. Его контроллер архитектуры, модели быстропроизводства, глубоко мышление моделей, автоматическое рейтинг и разжигание памяти иллюстрируют вид свинца продукта, который делает автономные агенты безопасными для развертывания шкалы.

Технология ИИ от Google – это никому второе место. Таким образом, хитрость заключается в том, чтобы рассчитать, как учиться на нем или даже использовать его напрямую. Google говорит, что для академических партнеров поступает программа раннего доступа, и что «более широкая доступность» изучается, но детали тонкие. До тех пор Alphaevolve является лучшим практическим шаблоном: если вы хотите агентов, которые влияют на драгоценные рабочие нагрузки, вам понадобится сопоставимая оркестровая, тестирование и охранники.

Рассмотрим только Центр обработки данных выигрывает. Google не поставит цену на восстановленную 0,7%, но его годовой Capex проходит десятки миллиардов долларов. Даже приблизительная оценка ставит сбережения в сотни миллионов в год –Достаточно, как отметил независимый разработчик Сэм Виттивен в нашем недавнем подкасте, чтобы оплатить обучение одной из моделей Gemini Flag, оцениваемой в размере более 191 миллиона долларов за такую ​​версию, как Gemini Ultra.

Venturebeat был первым, кто сообщил о новостях Alphaevolve в начале этой недели. Теперь мы становимся глубже: как работает система, где действительно сидит инженерная банка, и конкретные шаги, которые предприятия могут сделать, чтобы построить (или купить) что -то сопоставимое.

1 Помимо простых сценариев: повышение «системы агента»

Alphaevolve работает над тем, что лучше всего описать как систему, работающую агентом – распределенный асинхронный трубопровод, созданный для непрерывной шкалы улучшения. Его основные элементы представляют собой контроллер, пара крупных языковых моделей (вспышка Близнецов по ширине; Gemini Pro для глубины), база данных памяти Versed Program и парк оценивающих работников, все подготовленные для высокой производительности, а не только низкую задержку.

Расширенный обзор структуры агента Alphaevolve. Источник: Alphaevolve -бумага.

Эта архитектура не концептуально новая, но исполнение. «Это просто невероятно хорошее исполнение», – говорит Виттейн.

Альфаволвировая бумага описывает оркестр как «Эволюционный алгоритм, который постепенно разрабатывает программы, которые улучшают оценку по автоматическим показателям рейтинга» (стр. 3); Короче говоря «Автономный трубопровод LLMS, чья задача – улучшить алгоритм путем прямых изменений в код» (стр. 1).

Вывод для предприятий: Если ваши планы агента включают неконтролируемые заезды по драгоценным задачам, планируйте аналогичную инфраструктуру: рабочие хвосты, хранилище памяти, отслеживание сервисной маши и безопасную песочницу для любого кода, который производит агент.

2. Оценка двигателя: прогресс в движении с автоматической, объективной обратной связью

Ключевым элементом Alphaevolve является его строгая структура оценки. Каждая итерация, предложенная парой LLMS, принимается или приостановлена ​​на основе «оцененной» функции пользователя, который возвращает метрики класса машин. Эта система оценки начинается с ультрастрастных контрольных проверок на каждом предлагаемом изменении кода, автоматических, автоматических тестах (аналогично модульным тестам, которые уже пишут), которые управляют фрагментом, все еще компилируя и создавая правильные ответы на горстке микро-ввода, прежде чем передавать выживших в более тяжелые тесты и обзоры, сгенерированные LLM. Это работает параллельно, поэтому поиск остается быстрым и безопасным.

Короче говоря: пусть модели предложит исправления, затем проверьте всех против тестов, которым вы доверяете. Alphaevolve также поддерживает многообъективную оптимизацию (оптимизация задержки И Точность за раз), разработка программ, которые достигли нескольких метрик за раз. Противостоятельно, балансирование нескольких целей может улучшить единую целевую метрику, поощряющую более разнообразные решения.

Вывод для предприятий: Производственные агенты нуждаются в детерминированных бомбардирах. Являются ли это отдельными тестами, полными симуляторами или анализом канарского трафика. Автоматическое рейтинг – это как ваша сеть безопасности, так и ваш двигатель роста. Прежде чем запустить агент проект, спросите: «Можем ли мы иметь метрику, на которую может противостоять агент?»

3. Использование интеллектуальной модели, уточнение итеративного кода

Alphaevolve имеет дело с каждой проблемой кодирования с двумодельным ритмом. Во -первых, Gemini Flash зажигает быстрые проекты, предоставляя системе широкий спектр идей для изучения. Затем Gemini Pro изучает эти проекты глубже и возвращает меньший набор более сильных кандидатов. Формирование обеих моделей – это легкий «быстрый строитель», вспомогательный сценарий, который задает вопрос, который видит каждая модель. Он смешивает три типа контекста: более ранние попытки кода, хранящиеся в базе данных проектов, любые охранники или правила, которые инженерная группа написала, и соответствующие внешние материалы, такие как исследовательские статьи или примечания к разработчикам. С этим более богатым фоном, Gemini Flash может широко прогуляться, в то время как Близнецы из -за нуля по качеству.

В отличие от многих агентств, которые устанавливают по одной функции за раз, Alphaevolve редактирует целые месторождения. Он описывает каждое изменение как стандартное различное блок – один и тот же инженеры формата Diaca Polmat Push -GitHub – так что оно может повлиять на десятки файлов без потери отслеживания. Более позднее автоматическое тестирование решает, биется ли патч. В течение повторных циклов воспоминания об успехе и неудаче агента растет, поэтому она предлагает лучшие патчи и отходы меньше, чтобы рассчитывать на бесконечные.

Вывод для предприятий: Пусть более дешевые, более быстрые модели обрабатывают мозговой шторм, а затем призывают к более способной модели уточнить лучшие идеи. Держите каждый тест в истории, где можно найти поиск, так как эта память бросится позже, и может быть повторно использована через команды. Соответственно, поставщики быстро предоставляют разработчикам новые инструменты вокруг таких вещей, как память. Продукты, такие как OpenMemory MCP, которая предоставляет портативную хранилище памяти, и новые API -интерфейсы с длинной и кратковременной памятью в Llamindex делают этот постоянный контекст почти так же легко вставить, как и журнал.

Инженерный агент Codex-1 Open, также выпущенный сегодня, подчеркивает тот же шаблон. Он зажигает параллельные задачи в безопасной песочнице, организует первые тестирование и возвращает эффективные запросы, специфичный для кода, эхоуль более широкого поиска и оценки Alphaevolve.

4. Измерение управления: нацеливание на ИИ Агентство для демонстрации рентабельности

Осуществимые победы Alphaevolve – восстановить 0,7%емкости центра обработки данных, сократить время выполнения ядра Близнецов 23%, ускорение флеш -осень 32%и упрощение дизайна TPU – разделяют одну особенность: они нацелены на домены с герметическими метриками.

Для центра обработки данных Alphaevolve Evolved Evolustistic, которая была оценена с использованием симулятора центров обработки данных Google на основе исторических рабочих нагрузок. Для оптимизации ядра цель состояла в том, чтобы минимизировать эффективное выполнение в акселераторах TPU через базу данных реалистичных входных форм основного ввода.

Вывод для предприятий: Когда вы запускаете поездку по ИИ агента, посмотрите на первые рабочие процессы, где «лучше» – это количественное число, которое может вычислить вашу систему – задержка, стоимость, частота ошибок или производительность. Этот фокус допускает автоматический поиск и развертывание DE-риска, потому что вывод агента (часто читаемый на человеке код, как в случае Alphaevolve) может быть включен в существующие изменения и действительные трубопроводы.

Эта ясность позволяет агенту самостоятельно заполнять и доказать несомненную ценность.

5. Размещение оснований: основные предпосылки для успеха корпоративного агента

В то время как достижения Alphaevolve вдохновляют, статья Google также ясна в отношении его масштаба и требований.

Основным ограничением является необходимость автоматической оценки; Проблемы, требующие ручного эксперимента или «мокрой» обратной связи, в настоящее время выходят за рамки этого конкретного подхода. Система может потреблять значительный компьютер «по порядку 100 часов компьютера для оценки любого нового решения» (Alphaevolve Paper, стр. 8), нуждающаяся в параллелизации и тщательной способности.

Прежде чем назначить значительный бюджет сложным системам действий, технические лидеры должны задавать критические вопросы:

  • Проблема машинного уровня? Есть ли у нас четкий, автоматический показатель, с которой агент может получить свою собственную производительность?
  • Рассчитать способность? Можем ли мы платить потенциально компьютерную тяжелую внутреннюю петлю генерации, оценки и уточнения, особенно на этапе разработки и обучения?
  • Кодовая база и готовность к памяти? Ваша базовая база структурирована для итерационных, возможно, на основе дифференциации, модификаций? И можете ли вы реализовать системы инструментальной памяти, необходимые для агента, чтобы учиться на своей эволюционной истории?

Вывод для предприятий: Растущее внимание на надежной агентской идентичности и управлении доступом, как видно на таких платформах, как Frontegg, Auth0 и другие, также привлекает внимание к зрелой инфраструктуре, необходимой для развертывания агентов, которые безопасно взаимодействуют с несколькими корпоративными системами.

Действенное будущее создается, не только называется

Сообщение Alphaevolve для предприятий многочисленно. Во -первых, ваша операционная система вокруг агентов в настоящее время гораздо важнее, чем модельный интеллект. План Google показывает три столпа, которые не могут быть опущены:

  • Детерминистский рейтинг, который дает агенту определенную оценку каждый раз, когда он вносит изменение.
  • Долгосрочная оркестровка, которая может быстро жонглировать «проективными» моделями, такими как Близнечные Близнецы, с более медленными, более плотными моделями-это стек или кадр этого Google, как Langgraph’s Langchain.
  • Постоянная память, поэтому каждая итерация основана на последней, а не поднимается с нуля.

Предприятия, у которых уже есть ведение журнала, тестовые льготы и депозиты кода версии, ближе, чем они думают. Следующим шагом является вставка этих активов в цикл оценок самообслуживания, чтобы несколько агентских решений могли конкурировать, и только самые высокие суда бомбардировщика.

Как и Anurag Dhingra, вице -президент и GM Cisco по корпоративной связи и сотрудничеству, заявили Venturebeat в интервью на этой неделе: «Это происходит, это очень, очень реально», – сказал он о предприятиях, использующих агенты искусственного интеллекта в производстве, склады, центры контактов с клиентами. «В будущем нет. Это происходит сегодня». Он предупредил, что, хотя эти агенты станут более озабоченными, выполняют «человеческую работу», стресс для существующих систем будет огромным: «сетевой трафик пройдет через крышу»,-сказал Диндра. Ваша сеть, бюджет и конкурентное преимущество, скорее всего, чувствует, что стресс до того, как цикл шумиха урегулирует. Начните тестировать контент, Метрический, управляемый использованием в этом квартале. Скалу, что работает.

Посмотрите видео подкаст, который я сделал с разработчиком Сэмом Виттевином, где мы углубимся в отношении производственных агентов, и как Alphaevolve показывает путь:

https://www.youtube.com/watch?v=g5n13jjaing


Source link
Scroll to Top