Интерпретируемая книга ИИ Игр: Что означают исследования Anropic для вашей корпоративной стратегии LLM


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


В апреле генеральный директор Antropic Дарио Амодеей сделал срочный толчок в апреле за необходимость понять, как думать модели искусственного интеллекта.

Это происходит в основное время. Как антропные сражения в глобальном рейтинге ИИ, важно заметить, что отличает его от других верхних лабораторий ИИ. С момента своего основания в 2021 году, когда семь сотрудников Openi разбили обеспокоенность по поводу безопасности искусственного интеллекта, Antropic создал модели искусственного интеллекта, которые придерживаются набора ценных принципов человека, системы, которую они называют конституционным ИИ. Эти принципы гарантируют, что модели «полезны, честны и безвредны» и, как правило, действуют в интересах общества. В то же время, исследовательская рука Антропия глубоко погружается, чтобы понять, как ее модели думают о мире, и Почему Они производят полезные (а иногда и вредные) ответы.

Флагманская модель Antropic, Claude 3.7 Sonnet, управляла ссылками на код, когда она была запущена в феврале, доказывая, что модели искусственного интеллекта могут преуспеть в действии и безопасности. И недавний выпуск Opus и Sonnet Claude 4.0 снова ставит Клода в верхнюю часть ссылок на код. Тем не менее, на сегодняшнем быстром и гиперконкурентном рынке ИИ Antible Antif 2,5 Pro и AI Open конкуренты AI имеют свои впечатляющие выступления для кодирования неуклюжих, в то время как они уже освоили Клод по математике, творческому письму и общему рассуждениям на многих языках.

Если мысли Amodei являются некоторые признаки, антропические планы на будущее ИИ и его последствия в критических областях, таких как медицина, психология и право, где безопасность моделей и человеческие ценности являются обязательными. И это показывает: Antropical является основной лабораторией ИИ, которая фокусируется исключительно на разработке «интерпретируемого» ИИ, которые являются моделями, которые позволяют нам понять, с некоторой уверенностью, что думает модель и как она приходит к конкретному выводу.

Amazon и Google уже инвестировали миллиарды долларов в Antropic, даже когда они создают свои собственные модели искусственного интеллекта, поэтому, возможно, конкурентное преимущество Antropric все еще начинается. Модели интерпретации, такие как Anpropic, могут значительно снизить долгосрочные эксплуатационные расходы, связанные с отладкой, проверкой и смягчением рисков в сложных развертываниях ИИ.

Sayash Kapoor, исследователь безопасности ИИ, предполагает, что, хотя интерпретация является ценной, это лишь один из многих инструментов для управления риском ИИ. По его мнению, «интерпретация не является ни необходимой, ни достаточной», чтобы гарантировать, что модели ведут себя безопасно-это наиболее важно, в сочетании с фильтрами, руководителями и дизайном, ориентированным на человека. Эта более широкая точка зрения рассматривает интерпретацию как часть более крупной экосистемы стратегий управления, особенно в реальных развертываниях ИИ, где модели являются компонентами в более широких важных системах.

Необходимость интерпретируемого ИИ

До недавнего времени многие думали, что ИИ все еще были годами, подобными тем, кто теперь помогает Клоду, Близнецам и Чэтгпту, хвастается исключительным принятием рынка. Хотя эти модели уже расширяют пределы человеческих знаний, их обширное использование связано с тем, насколько они хороши для решения широкого спектра практических проблем, которые требуют творческой проблемы или подробного анализа. Поскольку модели устанавливаются на задачу все более критических проблем, им важно получить точные ответы.

Амодеей боится, что когда ИИ отвечает на подсказку: «Мы понятия не имеем … почему он выбирает некоторые слова над другими, или почему он иногда совершает ошибку, несмотря на то, что обычно точнее». Такие ошибки – галлюцинации неправильной информации или ответы, которые не соответствуют человеческим ценностям – будут держать модели ИИ для полного их потенциала. Действительно, мы видели много примеров того, как ИИ все еще борется с галлюцинациями и неэтичным поведением.

Любить, лучший способ решить эти проблемы – это понять, как ИИ думает: «Наша неспособность понять внутренние механизмы моделей означает, что мы не можем значительно предсказать такое (вредное) поведение и поэтому бороться за их контроль … если бы вместо этого он мог бы взглянуть на модели, мы могли бы систематически блокировать все тюрьмы, а также характеризовать модели».

Amodei также видит непрозрачность текущих моделей, таких как барьер для развертывания моделей искусственного интеллекта в «высокие финансовые критические настройки или критические настройки безопасности, так как мы не можем полностью установить границы на их поведение, и небольшое количество ошибок может быть очень вредным». При принятии решений, которые влияют на людей напрямую, такие как медицинская диагностика или оценка ипотеки, юридические правила требуют, чтобы ИИ объяснял их решения.

Представьте себе финансовое учреждение, использующее большую языковую модель (LLM) для обнаружения мошенничества – интерпретация может означать объяснение заявления о запрещении заявки на ссуду в соответствии с законом. Или производственная компания оптимизирует цепочки поставок – понимание того, почему ИИ предполагает, что отдельный поставщик может разблокировать эффективность и предотвратить невидимые бутылки.

Из -за этого Amodei объясняет, «Antropic Double Interpretation, и у нас есть цель – достичь« интерпретации может надежно обнаружить большинство модельных проблем »к 2027 году».

С этой целью Antropic недавно участвовал в инвестициях в размере 50 миллионов долларов в Goodfire, лаборатории исследований ИИ, которая прогрессировала на прогресс «Сканирование мозга». Их модельная платформа проверки, Ember, является агностическим инструментом, который идентифицирует изученные концепции в моделях и позволяет пользователям справляться с ними. В недавней демонстрации компания показала, как Ember может распознавать отдельные визуальные концепции в области искусственного интеллекта, а затем оставить пользователей краска Эти концепции на холсте для создания новых изображений, которые следуют за проектом пользователя.

Антропические инвестиции в Ember предполагают, что разработка интерпретационных моделей довольно трудно для Antropic не иметь силы для достижения интерпретации самостоятельно. Творческие модели интерпретации требуют новых инструментов и умных разработчиков для их создания

Более широкий контекст: перспектива AI -Explorer

Чтобы уничтожить перспективу Amodei и добавить столь необходимый контекст, Venturebeat опросил исследователь безопасности ИИ в Принстоне. Kapoor Co -уполномоченную книгу Ай змеиное маслоКритическое исследование преувеличенных претензий, связанных с возможностями крупных моделей ИИ. Он также является соавтором »ИИ как обычная технология«В котором он выступает в отношении рассматриваемого ИИ как стандартного преобразующего инструмента, такого как Интернет или электричество, и способствует реалистичной перспективе его интеграции в ежедневные системы.

Капур не оспаривает, что интерпретация является ценной. Тем не менее, он скептически относится к этому как к центральному столпу AI, выравнивающей. «Это не серебряная пуля», – сказал Капур VentureBeat. По его словам, многие из наиболее эффективных методов безопасности, такие как фильтрация после ответа, не требуют, чтобы модель вообще открылась.

Он также предупреждает о том, что исследователи называют «виной надписи» – идеей, что если мы не полностью понимаем внутреннюю систему, мы не можем использовать или регулировать ее ответственно. На практике полная прозрачность не так, как большинство технологий оцениваются. Важно, так это то, работает ли система надежно в реальных условиях.

Это не первый случай, когда Амодеей предупредил о рисках ИИ, что превышает наше понимание. В своем плакате в октябре 2024 года «Машины любящей благодати» он обрисовал в общих чертах видение все более способных моделей, которые могут предпринять значительные действия реального мира (и, возможно, удвоить нашу жизнь).

По словам Капура, здесь есть важное различие между моделью Способность И это ВластьПолем Модельные навыки определенно быстро растут, и они могут скоро развивать достаточно интеллекта, чтобы найти решения для многих сложных проблем, которые сегодня сложны. Но модель так же мощна, как и интерфейсы, которые мы предоставляем для взаимодействия с реальным миром, в том числе где и как развертываются модели.

В частности, Amodei утверждал, что Соединенные Штаты должны поддерживать лидерство в разработке ИИ, отчасти через экспортные элементы управления, которые ограничивают доступ к моделям мощности. Идея состоит в том, что авторитарные правительства могут использовать пограничные безответственные системы ИИ – или захватить геополитическое и экономическое преимущество, которое на первом месте.

Для Капура «даже самые большие сторонники экспортного контроля согласны с тем, что он даст нам не более года или два». Он думает, что нам нужно рассматривать ИИ как «нормальную технологию», например, электричество или интернет. Во время революционера потребовалось десятилетия для обеих технологий, полностью реализованных во всем обществе. Капур считает, что это то же самое для ИИ: лучший способ сохранить геополитическое преимущество – сосредоточиться на «длинной игре» трансформирующих отраслей, чтобы эффективно использовать ИИ.

Другие критикуют Амодеей

Капур не единственный, кто критикует отношение Амодея. На прошлой неделе в Vivatech в Париже Янсен Хуанг, генеральный директор Nvidia, объявил о своем разногласии с взглядами Амодея. Хуан расспросил, должен ли власть развивать ИИ ограничивать некоторыми влиятельными сущностями, такими как антроповые. Он сказал: «Если вы хотите, чтобы все было сделано безопасно и в ответ, вы делаете это открытым … не делайте этого в темной комнате и не говорите мне, что это безопасно».

В ответ Antropic заявил: «Дарий никогда не утверждал, что« только антроп »может построить безопасный и могущественный ИИ. Как покажет публичная запись, Дарий рекомендовал национальный прозрачный стандарт для разработчиков ИИ (включая антропический), чтобы общественные и политики знали о возможностях и рисках моделей».

Стоит также отметить, что Antropic не одинока в поисках интерпретации: команда Google DeepMind, возглавляемая Нил Нандой, также внесла важный вклад в интерпретативные исследования.

Наконец, лучшие лаборатории и исследователи ИИ предоставляют убедительные доказательства того, что интерпретация может быть ключевым отличием на конкурентном рынке ИИ. Предприятия, которые приоритет интерпретируемости ранним, могут получить значительное конкурентное преимущество, создав более надежные, последовательные и адаптируемые системы ИИ.


Source link
Scroll to Top