Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Новый Alphaevolve’s от Google показывает, что происходит, когда ИИ -Агентные выпускники от лабораторной работы до производственных работ, и у вас есть одна из самых талантливых технологических компаний.
Созданный Google DeepMind, система автономно переписывает критический код и уже платит за себя в Google. Он разбил 56-летний рекорд в умножении матрицы (ядро многих рабочих нагрузок машинного обучения) И Объяснил 0,7% компьютерных мощностей через глобальные центры обработки данных компании.
Эти основные подвиги важны, но более глубокий урок для корпоративных технологических лидеров – это Как Alphaevolve их убирает. Его контроллер архитектуры, модели быстропроизводства, глубоко мышление моделей, автоматическое рейтинг и разжигание памяти иллюстрируют вид свинца продукта, который делает автономные агенты безопасными для развертывания шкалы.
Технология ИИ от Google – это никому второе место. Таким образом, хитрость заключается в том, чтобы рассчитать, как учиться на нем или даже использовать его напрямую. Google говорит, что для академических партнеров поступает программа раннего доступа, и что «более широкая доступность» изучается, но детали тонкие. До тех пор Alphaevolve является лучшим практическим шаблоном: если вы хотите агентов, которые влияют на драгоценные рабочие нагрузки, вам понадобится сопоставимая оркестровая, тестирование и охранники.
Рассмотрим только Центр обработки данных выигрывает. Google не поставит цену на восстановленную 0,7%, но его годовой Capex проходит десятки миллиардов долларов. Даже приблизительная оценка ставит сбережения в сотни миллионов в год –Достаточно, как отметил независимый разработчик Сэм Виттивен в нашем недавнем подкасте, чтобы оплатить обучение одной из моделей Gemini Flag, оцениваемой в размере более 191 миллиона долларов за такую версию, как Gemini Ultra.
Venturebeat был первым, кто сообщил о новостях Alphaevolve в начале этой недели. Теперь мы становимся глубже: как работает система, где действительно сидит инженерная банка, и конкретные шаги, которые предприятия могут сделать, чтобы построить (или купить) что -то сопоставимое.
1 Помимо простых сценариев: повышение «системы агента»
Alphaevolve работает над тем, что лучше всего описать как систему, работающую агентом – распределенный асинхронный трубопровод, созданный для непрерывной шкалы улучшения. Его основные элементы представляют собой контроллер, пара крупных языковых моделей (вспышка Близнецов по ширине; Gemini Pro для глубины), база данных памяти Versed Program и парк оценивающих работников, все подготовленные для высокой производительности, а не только низкую задержку.
Эта архитектура не концептуально новая, но исполнение. «Это просто невероятно хорошее исполнение», – говорит Виттейн.
Альфаволвировая бумага описывает оркестр как «Эволюционный алгоритм, который постепенно разрабатывает программы, которые улучшают оценку по автоматическим показателям рейтинга» (стр. 3); Короче говоря «Автономный трубопровод LLMS, чья задача – улучшить алгоритм путем прямых изменений в код» (стр. 1).
Вывод для предприятий: Если ваши планы агента включают неконтролируемые заезды по драгоценным задачам, планируйте аналогичную инфраструктуру: рабочие хвосты, хранилище памяти, отслеживание сервисной маши и безопасную песочницу для любого кода, который производит агент.
2. Оценка двигателя: прогресс в движении с автоматической, объективной обратной связью
Ключевым элементом Alphaevolve является его строгая структура оценки. Каждая итерация, предложенная парой LLMS, принимается или приостановлена на основе «оцененной» функции пользователя, который возвращает метрики класса машин. Эта система оценки начинается с ультрастрастных контрольных проверок на каждом предлагаемом изменении кода, автоматических, автоматических тестах (аналогично модульным тестам, которые уже пишут), которые управляют фрагментом, все еще компилируя и создавая правильные ответы на горстке микро-ввода, прежде чем передавать выживших в более тяжелые тесты и обзоры, сгенерированные LLM. Это работает параллельно, поэтому поиск остается быстрым и безопасным.
Короче говоря: пусть модели предложит исправления, затем проверьте всех против тестов, которым вы доверяете. Alphaevolve также поддерживает многообъективную оптимизацию (оптимизация задержки И Точность за раз), разработка программ, которые достигли нескольких метрик за раз. Противостоятельно, балансирование нескольких целей может улучшить единую целевую метрику, поощряющую более разнообразные решения.
Вывод для предприятий: Производственные агенты нуждаются в детерминированных бомбардирах. Являются ли это отдельными тестами, полными симуляторами или анализом канарского трафика. Автоматическое рейтинг – это как ваша сеть безопасности, так и ваш двигатель роста. Прежде чем запустить агент проект, спросите: «Можем ли мы иметь метрику, на которую может противостоять агент?»
3. Использование интеллектуальной модели, уточнение итеративного кода
Alphaevolve имеет дело с каждой проблемой кодирования с двумодельным ритмом. Во -первых, Gemini Flash зажигает быстрые проекты, предоставляя системе широкий спектр идей для изучения. Затем Gemini Pro изучает эти проекты глубже и возвращает меньший набор более сильных кандидатов. Формирование обеих моделей – это легкий «быстрый строитель», вспомогательный сценарий, который задает вопрос, который видит каждая модель. Он смешивает три типа контекста: более ранние попытки кода, хранящиеся в базе данных проектов, любые охранники или правила, которые инженерная группа написала, и соответствующие внешние материалы, такие как исследовательские статьи или примечания к разработчикам. С этим более богатым фоном, Gemini Flash может широко прогуляться, в то время как Близнецы из -за нуля по качеству.
В отличие от многих агентств, которые устанавливают по одной функции за раз, Alphaevolve редактирует целые месторождения. Он описывает каждое изменение как стандартное различное блок – один и тот же инженеры формата Diaca Polmat Push -GitHub – так что оно может повлиять на десятки файлов без потери отслеживания. Более позднее автоматическое тестирование решает, биется ли патч. В течение повторных циклов воспоминания об успехе и неудаче агента растет, поэтому она предлагает лучшие патчи и отходы меньше, чтобы рассчитывать на бесконечные.
Вывод для предприятий: Пусть более дешевые, более быстрые модели обрабатывают мозговой шторм, а затем призывают к более способной модели уточнить лучшие идеи. Держите каждый тест в истории, где можно найти поиск, так как эта память бросится позже, и может быть повторно использована через команды. Соответственно, поставщики быстро предоставляют разработчикам новые инструменты вокруг таких вещей, как память. Продукты, такие как OpenMemory MCP, которая предоставляет портативную хранилище памяти, и новые API -интерфейсы с длинной и кратковременной памятью в Llamindex делают этот постоянный контекст почти так же легко вставить, как и журнал.
Инженерный агент Codex-1 Open, также выпущенный сегодня, подчеркивает тот же шаблон. Он зажигает параллельные задачи в безопасной песочнице, организует первые тестирование и возвращает эффективные запросы, специфичный для кода, эхоуль более широкого поиска и оценки Alphaevolve.
4. Измерение управления: нацеливание на ИИ Агентство для демонстрации рентабельности
Осуществимые победы Alphaevolve – восстановить 0,7%емкости центра обработки данных, сократить время выполнения ядра Близнецов 23%, ускорение флеш -осень 32%и упрощение дизайна TPU – разделяют одну особенность: они нацелены на домены с герметическими метриками.
Для центра обработки данных Alphaevolve Evolved Evolustistic, которая была оценена с использованием симулятора центров обработки данных Google на основе исторических рабочих нагрузок. Для оптимизации ядра цель состояла в том, чтобы минимизировать эффективное выполнение в акселераторах TPU через базу данных реалистичных входных форм основного ввода.
Вывод для предприятий: Когда вы запускаете поездку по ИИ агента, посмотрите на первые рабочие процессы, где «лучше» – это количественное число, которое может вычислить вашу систему – задержка, стоимость, частота ошибок или производительность. Этот фокус допускает автоматический поиск и развертывание DE-риска, потому что вывод агента (часто читаемый на человеке код, как в случае Alphaevolve) может быть включен в существующие изменения и действительные трубопроводы.
Эта ясность позволяет агенту самостоятельно заполнять и доказать несомненную ценность.
5. Размещение оснований: основные предпосылки для успеха корпоративного агента
В то время как достижения Alphaevolve вдохновляют, статья Google также ясна в отношении его масштаба и требований.
Основным ограничением является необходимость автоматической оценки; Проблемы, требующие ручного эксперимента или «мокрой» обратной связи, в настоящее время выходят за рамки этого конкретного подхода. Система может потреблять значительный компьютер «по порядку 100 часов компьютера для оценки любого нового решения» (Alphaevolve Paper, стр. 8), нуждающаяся в параллелизации и тщательной способности.
Прежде чем назначить значительный бюджет сложным системам действий, технические лидеры должны задавать критические вопросы:
- Проблема машинного уровня? Есть ли у нас четкий, автоматический показатель, с которой агент может получить свою собственную производительность?
- Рассчитать способность? Можем ли мы платить потенциально компьютерную тяжелую внутреннюю петлю генерации, оценки и уточнения, особенно на этапе разработки и обучения?
- Кодовая база и готовность к памяти? Ваша базовая база структурирована для итерационных, возможно, на основе дифференциации, модификаций? И можете ли вы реализовать системы инструментальной памяти, необходимые для агента, чтобы учиться на своей эволюционной истории?
Вывод для предприятий: Растущее внимание на надежной агентской идентичности и управлении доступом, как видно на таких платформах, как Frontegg, Auth0 и другие, также привлекает внимание к зрелой инфраструктуре, необходимой для развертывания агентов, которые безопасно взаимодействуют с несколькими корпоративными системами.
Действенное будущее создается, не только называется
Сообщение Alphaevolve для предприятий многочисленно. Во -первых, ваша операционная система вокруг агентов в настоящее время гораздо важнее, чем модельный интеллект. План Google показывает три столпа, которые не могут быть опущены:
- Детерминистский рейтинг, который дает агенту определенную оценку каждый раз, когда он вносит изменение.
- Долгосрочная оркестровка, которая может быстро жонглировать «проективными» моделями, такими как Близнечные Близнецы, с более медленными, более плотными моделями-это стек или кадр этого Google, как Langgraph’s Langchain.
- Постоянная память, поэтому каждая итерация основана на последней, а не поднимается с нуля.
Предприятия, у которых уже есть ведение журнала, тестовые льготы и депозиты кода версии, ближе, чем они думают. Следующим шагом является вставка этих активов в цикл оценок самообслуживания, чтобы несколько агентских решений могли конкурировать, и только самые высокие суда бомбардировщика.
Как и Anurag Dhingra, вице -президент и GM Cisco по корпоративной связи и сотрудничеству, заявили Venturebeat в интервью на этой неделе: «Это происходит, это очень, очень реально», – сказал он о предприятиях, использующих агенты искусственного интеллекта в производстве, склады, центры контактов с клиентами. «В будущем нет. Это происходит сегодня». Он предупредил, что, хотя эти агенты станут более озабоченными, выполняют «человеческую работу», стресс для существующих систем будет огромным: «сетевой трафик пройдет через крышу»,-сказал Диндра. Ваша сеть, бюджет и конкурентное преимущество, скорее всего, чувствует, что стресс до того, как цикл шумиха урегулирует. Начните тестировать контент, Метрический, управляемый использованием в этом квартале. Скалу, что работает.
Посмотрите видео подкаст, который я сделал с разработчиком Сэмом Виттевином, где мы углубимся в отношении производственных агентов, и как Alphaevolve показывает путь:
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link