Введение: личные агенты LLM и риски конфиденциальности
LLM развернуты в качестве личных помощников, получая доступ к конфиденциальным пользовательским данным через персональные агенты LLM. Это развертывание вызывает обеспокоенность по поводу контекстуального понимания конфиденциальности и способности этих агентов определять, когда обмен конкретной информацией пользователя является подходящей. Большие модели рассуждений (LRM) создают проблемы, когда они работают через неструктурированные, непрозрачные процессы, что неясно, насколько чувствительная информация течет от ввода к выводу. LRM используют следы рассуждений, которые делают комплекс защиты конфиденциальности. В текущем исследовании рассматриваются запоминание времени обучения, утечку конфиденциальности и контекстуальную конфиденциальность при выводе. Тем не менее, они не могут проанализировать следы рассуждений как явные векторы угроз у личных агентов с LRM.
Связанная работа: тесты и рамки для контекстуальной конфиденциальности
Предыдущее исследование рассматривает контекстную конфиденциальность в LLMS с помощью различных методов. Контекстуальные структуры целостности определяют конфиденциальность как правильный поток информации в социальных контекстах, что приводит к таким контрольным показателям, как Decodingtrust, Airgapagent, Confaide, Privaci и Ci-Bench, которые оценивают контекстуальную приверженность с помощью структурированных подсказок. PrivacyLens и AgentDam имитируют агентские задачи, но все целевые модели, не связанные с Reeshing. Время теста вычислить (TTC) позволяет структурированные рассуждения во время вывода, при этом LRM, такие как DeepSeek-R1, расширяют эту возможность через RL-обучение. Тем не менее, проблемы безопасности остаются в моделях рассуждений, поскольку исследования показывают, что такие LRM, как DeepSeek-R1, производят следы рассуждений, содержащие вредное содержание, несмотря на безопасные окончательные ответы.
Вклад исследования: оценка LRM для контекстуальной конфиденциальности
Исследователи из Parameter Lab, Университет Мангейма, технического университета Дармштадта, Naver AI Lab, Университета Тубинген и Центра Tubingen AI, представляют первое сравнение LLM и LRM в качестве личных агентов, показывая, что в то время как LRM превзошли LLM в полевых условиях, это преимущество не распространяется на защиту частной защиты. Исследование имеет три основных вклада, касающихся критических пробелов в оценке модели рассуждения. Во-первых, он устанавливает контекстуальную оценку конфиденциальности для LRM, используя два теста: Airgapagent-R и Agentdam. Во -вторых, это показывает следы рассуждений как новую поверхность атаки конфиденциальности, показывая, что LRM рассматривают их следы рассуждений как частные царапины. В -третьих, он исследует механизмы, лежащие в основе утечки конфиденциальности в моделях рассуждений.
Методология: настройки зондирования и агента конфиденциальности
Исследование использует две настройки для оценки контекстуальной конфиденциальности в моделях рассуждения. Настройка зондирования использует целенаправленные, одновоменные запросы с использованием Airgapagent-R для проверки явного понимания конфиденциальности на основе публичной методологии исходных авторов, эффективно. Агентная настройка использует агент для оценки неявного понимания конфиденциальности в трех областях: покупки, Reddit и Gitlab. Кроме того, в оценке используются 13 моделей в диапазоне от 8b до более 600b параметров, сгруппированных по семейной линии. Модели включают Vanilla LLMS, ванильные модели, добавленные из кости, и LRM, с дистиллированными вариантами, такими как модели Llama и QWEN на основе R1 Deepseek. При расследовании модель просят реализовать конкретные методы подсказования для поддержания мышления в обозначенных тегах и анонимности конфиденциальных данных с использованием заполнителей.
Анализ: Типы и механизмы утечки конфиденциальности в LRMS
Исследование выявляет различные механизмы утечки конфиденциальности в LRMS путем анализа процессов рассуждения. Наиболее распространенной категорией является неправильное понимание контекста, составляющее 39,8% случаев, когда модели неверно истолковывают требования задачи или контекстуальные нормы. Значительное подмножество включает в себя относительную чувствительность (15,6%), где модели оправдывают обмен информацией, основанную на показанных рейтингах чувствительности различных полей данных. Поведение добросовестного поведения составляет 10,9% случаев, когда модели предполагают, что раскрытие является приемлемым просто потому, что кто -то запрашивает информацию, даже от внешних субъектов, предполагаемых достоверными. Повторные рассуждения возникают в 9,4% случаев, когда внутренние последовательности мышлений кровоточат в окончательных ответах, нарушая предполагаемое разделение между рассуждениями и реакцией.
Вывод: баланс утилиты и конфиденциальности в моделях рассуждения
В заключение, исследователи представили первое исследование, в котором изучалось, как LRM обрабатывают контекстуальную конфиденциальность как в зондировании, так и в агентских условиях. Результаты показывают, что увеличение вычислительного бюджета испытаний повышает конфиденциальность в окончательных ответах, но улучшает легко доступные процессы рассуждений, которые содержат конфиденциальную информацию. Существует неотложная необходимость в будущих стратегиях смягчения и выравнивания, которые защищают как процессы рассуждений, так и окончательные результаты. Более того, исследование ограничено своим фокусом на моделях с открытым исходным кодом и использованием настройки зондирования вместо полностью агентских конфигураций. Однако этот выбор обеспечивает более широкое охват модели, обеспечить контролируемые эксперименты и способствовать прозрачности.
Проверьте Бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.
