Фактор LLMS в несвязанной информации при рекомендации медицинского лечения | MIT News

Согласно исследованию, пропущенные гендерные маркеры, может быть разработана большая языковая модель (LLM), развернутая для рекомендаций по лечению, неклиническая информация в сообщениях пациентов, таких как опечатки, дополнительное место в белом месте, отсутствие гендерных маркеров или использование неопределенного, драматического и неформального языка.

Они обнаружили, что внесение стилистических или грамматических изменений в сообщениях увеличивает вероятность того, что LLM рекомендует пациенту самостоятельно управлять своим состоянием здоровья, а не прийти на прием, даже если этот пациент должен обратиться за медицинской помощью.

Их анализ также показал, что эти неклинические различия в тексте, которые имитируют то, как люди действительно общаются, с большей вероятностью изменят рекомендации по лечению модели для женщин -пациентов, что приводит к более высокому проценту женщин, которые ошибочно рекомендовали не обращаться за медицинской помощью, по словам врачей.

Эта работа «является убедительным доказательством того, что модели должны быть проверены перед использованием в здравоохранении, которая является обстановкой, в которой они уже используются», – говорит Marryeh Ghassemi, доцент кафедры электротехники и компьютерных наук (EECS), член Института медицинских наук и лабораторию систем информации и систем принятия решений, а также старшего автора исследования.

Эти результаты показывают, что LLMS учитывают неклиническую информацию для принятия клинических решений ранее неизвестными. По словам исследователей, это вызывает необходимость в более строгих исследованиях LLM, прежде чем они будут развернуты для применений с высокими ставками, таких как рекомендации по лечению.

«Эти модели часто обучаются и тестируются по вопросам медицинского обследования, но затем используются в задачах, которые очень далеко от этого, такие как оценка тяжести клинического случая. Все еще так много о LLM, которых мы не знаем», – добавляет Абинита Гурабатина, студент -выпускник EECS и ведущий автор исследования.

Они присоединяются к статье, которая будет представлена ​​на конференции ACM по справедливости, подотчетности и прозрачности, аспирантом Эйлин Пан и постдоком Уолтера Гериха.

Смешанные сообщения

Крупные языковые модели, такие как GPT-4 Openai, используются для составления клинических заметок и сообщений о пациентах сортировки в медицинских учреждениях по всему миру, чтобы упростить некоторые задачи, чтобы помочь перегруженным клиницистам.

Растущий объем работы изучал возможности клинических рассуждений LLM, особенно с точки зрения справедливости, но в немногих исследованиях оценивалось, как неклиническая информация влияет на суждение модели.

Заинтересовавшись, как гендерные влияния LLM рассуждают, Гурабатина провела эксперименты, где она поменяла гендерные сигналы в заметках пациента. Она была удивлена, что ошибки форматирования в подсках, такие как дополнительное белое пространство, вызвало значимые изменения в ответах LLM.

Чтобы изучить эту проблему, исследователи разработали исследование, в котором они изменили входные данные модели, заменив или удаляя гендерные маркеры, добавив красочный или неопределенный язык или вставив дополнительное пространство и опечатки в сообщения пациента.

Каждое возмущение было разработано, чтобы имитировать текст, который может быть написан кем -то в уязвимой популяции пациентов, основанного на психосоциальных исследованиях того, как люди общаются с клиницистами.

Например, дополнительные пространства и опечатки имитируют написание пациентов с ограниченным знанием английского языка или с меньшей технологической способностью, а добавление неопределенного языка представляет пациентов с тревогой со здоровьем.

«Медицинские наборы данных, на которых обучаются эти модели, обычно очищаются и структурированы, и не очень реалистичное отражение популяции пациентов. Мы хотели посмотреть, как эти очень реалистичные изменения в тексте могут повлиять на использование вниз по течению», – говорит Гурабатина.

Они использовали LLM для создания возмущенных копий тысяч заметок пациента, обеспечивая при этом изменения текста минимальными и сохранили все клинические данные, такие как лекарства и предыдущий диагноз. Затем они оценили четыре LLM, включая большую коммерческую модель GPT-4 и меньшую LLM, построенные специально для медицинских условий.

Они побуждали каждый LLM с тремя вопросами, основанными на пациенте: если пациент справится дома, если пациент придет для посещения клиники, и если медицинский ресурс будет выделен пациенту, например, лабораторный тест.

Исследователи сравнили рекомендации LLM с реальными клиническими реакциями.

Непоследовательные рекомендации

Они видели несоответствия в рекомендациях по лечению и значительные разногласия среди LLM, когда их питались нарушенными данными. По всем направлениям, LLM показали увеличение предложений по самоуправлению на 7-9 процентов для всех девяти типов измененных сообщений о пациентах.

Это означает, что LLMS с большей вероятностью рекомендует пациентам, не обращающимся на медицинскую помощь, когда, например, сообщения содержали опечатки или гендерно-нейтральные местоимения. Использование красочного языка, такого как сленг или драматические выражения, оказало наибольшее влияние.

Они также обнаружили, что модели доставляли примерно на 7 процентов больше ошибок для пациентов с женщинами и с большей вероятностью рекомендовали бы самостоятельно управлять пациентами дома, даже когда исследователи удаляли все гендерные сигналы из клинического контекста.

Многие из худших результатов, например, пациенты, рассказывающие самостоятельному управлению, когда у них серьезное состояние здоровья, вероятно, не будут охвачены тестами, которые сосредоточены на общей клинической точности моделей.

«В исследованиях мы склонны смотреть на агрегированную статистику, но есть много вещей, которые теряются в переводе. Нам нужно взглянуть на направление, в котором возникают эти ошибки – не рекомендуя посетить, когда вам следует, гораздо более вредно, чем делать обратное», – говорит Гурабатина.

Несоответствия, вызванные неклиническим языком, становятся еще более выраженными в разговорных условиях, где LLM взаимодействует с пациентом, что является общим случаем использования для чат-ботов.

Но в последующей работе исследователи обнаружили, что те же изменения в сообщениях пациентов не влияют на точность человеческих клиницистов.

«В нашей проверке, находящейся в рассмотрении работы, мы также обнаруживаем, что крупные языковые модели хрупкие к изменениям, которыми не являются человеческие клиницисты», – говорит Гассеми. «Это, возможно, неудивительно – LLM не были предназначены для распределения приоритетов медицинской помощи пациентам. LLMS являются гибкими и достаточно эффективными в среднем, чтобы мы могли подумать, что это хороший случай использования. Но мы не хотим оптимизировать систему здравоохранения, которая хорошо работает только для пациентов в определенных группах».

Исследователи хотят расширить эту работу, разрабатывая возмущения естественного языка, которые отражают другие уязвимые группы населения и лучше имитируют реальные сообщения. Они также хотят изучить, как LLMS выводит пол из клинического текста.

Source link

You might also enjoy

Subscribe Our Newsletter

Scroll to Top