Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Большие языковые модели (LLMS) трансформируют то, как работают бизнес, но их «черный ящик» часто оставляет деловую борьбу с непредсказуемостью. Решая эту критическую задачу, Antropic недавно открыла свой инструмент отслеживания цепи, позволяя разработчикам и исследователям напрямую понимать и контролировать внутренние функции моделей.
Этот инструмент позволяет исследователям исследовать необъяснимые ошибки и неожиданное поведение в моделях с открытым весом. Это также может помочь с гранулированной конфигурацией LLM для конкретных внутренних функций.
Понимание внутренней логики ИИ
Этот инструмент схемы работает на основе «меистичной интерпретации», растущего поля, посвященного пониманию того, как ИИ работает на основе моделей на основе их внутренней деятельности, а не просто наблюдать за их входом и результатами.
В то время как первоначальные исследования антропного отслеживания схем применяли эту методологию к своей собственной модели Claude 3.5 Haiku, открытый инструмент расширяет эту способность открывать тяжелые модели. Команда Antropic уже использовала инструмент для отслеживания цепей в таких моделях, как GEMMA-2-2B и LLAM-3.2-1B, и выпустила ноутбук Kolabian, который помогает использовать библиотеку в открытых моделях.
Ядро инструмента заключается в генерации графики атрибутов, причинно -следственных связей, которые отслеживают взаимодействие между функциями в качестве модели, обрабатывает информацию и генерирует выход. (Особенности представляют собой внутренние шаблоны активации модели, которая может быть приблизительно сопоставлена с понятными понятиями.) Это похоже на получение подробной кабельной диаграммы от внутреннего мыслительного процесса ИИ. Что еще более важно, инструмент обеспечивает «эксперименты по вмешательству», позволяя исследователям напрямую изменять эти внутренние признаки и наблюдать, как изменения во внутренних состояниях ИИ влияют на его внешние ответы, что позволяет моделям.
Инструмент интегрируется с Neuronpedia, открытой платформой для понимания и экспериментов с нейронными сетями.
Практики и будущее влияние на корпоративный искусственное интеллект
В то время как инструмент Anpropic схемы – отличный шаг к объяснению и проверке ИИ, он имеет практические проблемы, в том числе высокие затраты на память, связанные с использованием инструмента и неотъемлемой сложности интерпретации графики подробной атрибуты.
Эти проблемы, однако, являются типичными для наиболее выгодных исследований. Интерпретация механизма является большой областью исследований, и крупнейшие лаборатории ИИ разрабатывают модели для изучения внутренней работы крупных языковых моделей. Благодаря открытую подачу инструмента трассы тракта Anpropic позволит сообществу разработать интерпретирующие инструменты, которые являются более масштабируемыми, автоматизированными и доступными для более широкого набора пользователей, открывая путь для практических применений всего усилий, которые понимают LLMS.
По мере того, как снаряжение созревает, способность понять, почему LLM принимает определенное решение, может привести к практическим преимуществам для бизнеса.
Отслеживание схемы объясняет, как LLM выполняют сложные многоэтапные рассуждения. Например, в своем исследовании исследователи смогли отслеживать как модель, выведенную «Техас» из «Далласа», прежде чем прибыть в «Остин» в качестве капитала. Он также выявил передовые механизмы планирования, такие как модель предварительных рифмованных слов в стихотворении для руководства линейной композицией. Предприятия могут использовать эти идеи для анализа, как их модели обрабатывают сложные задачи, такие как анализ данных или юридические рассуждения. Лучшие этапы внутреннего планирования или рассуждения позволяют целевую оптимизацию, повышая эффективность и точность в сложных бизнес -процессах.

Кроме того, Circuit -Trace предлагает лучшую ясность в числовых операциях. Например, в своем исследовании исследователи обнаружили, как модели относятся к арифметике, как 36+59 = 95, не простыми алгоритмами, а по параллельным путям и «таблицам поиска» для цифр. Например, предприятия могут использовать такие идеи для управления внутренними вычислениями, ведущими к многочисленным результатам, определить происхождение ошибок и реализовать предполагаемые исправления для обеспечения целостности данных и расчета точности в их LLM с открытым исходным кодом.
Для глобального развертывания инструмент дает представление о многоязычной последовательности. Предыдущие исследования Antropic показывают, что модели используют как языковые, так и абстрактные, лингвистические независимые «универсальные психические языки», с более крупными моделями, демонстрирующими большее обобщение. Это может помочь отладки задач локализации при развертывании моделей на различных языках.
Наконец, инструмент может помочь бороться с галлюцинациями и улучшить фактическую почву. Исследование показало, что модели имеют «схемы отказов по умолчанию» для неизвестных консультаций, которые подавляются «известными соответствующими» функциями. Галлюцинации могут возникнуть, когда эта ингибирующая цепь «не удается».

Помимо отладки существующих проблем, это механистическое понимание открывает новые возможности для установки LLMS. Вместо того, чтобы просто настраивать выходное поведение путем тестирования и ошибок, предприятия могут идентифицировать и ориентироваться на конкретные внутренние механизмы, управляющие желаемыми или нежелательными функциями. Например, понимание того, как «помощник человека» модели непреднамеренно включает в себя смещенные модели вознаграждения, как показано в исследовании антропного, позволяет разработчикам точно переоценить внутренние схемы, ответственные за выравнивание, что приводит к более надежным и этически последовательным развертываниям ИИ.
По мере того, как LLMS становится все более и более интегрированным в критические корпоративные функции, их прозрачность, интерпретация и контроль становятся все более критическими. Это новое поколение инструментов может помочь в разрыве между мощными возможностями ИИ и человеческим пониманием, укреплять фундаментальное доверие и гарантировать, что предприятия могут использовать надежные, слышимые, слышимые системы ИИ.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link