Новый метод оценивает и повышает надежность диагностических отчетов рентгенологов | MIT News

Из-за неопределенности в медицинских изображениях, таких как рентгенологи, радиологи часто используют такие слова, как «могут» или «вероятно» при описании наличия определенной патологии, такой как пневмония.

Но используют ли слова рентгенологи, чтобы точно выразить свой уровень доверия, точно отражает то, как часто у пациентов возникает конкретная патология? Новое исследование показывает, что когда радиологи выражают уверенность в определенной патологии, используя такую ​​фразу, как «очень вероятно», они, как правило, являются чрезмерно уверенными, и наоборот, когда выражают меньше уверенности, используя слово, как «возможно».

Используя клинические данные, междисциплинарная команда исследователей MIT в сотрудничестве с исследователями и клиницистами в больницах, связанных с Гарвардской медицинской школой, создала структуру для количественной оценки того, насколько надежные радиологи, когда они выражают определенность с использованием терминов естественного языка.

Они использовали этот подход, чтобы дать четкие предложения, которые помогают радиологам выбирать фразы уверенности, которые повысили бы надежность их клинической отчетности. Они также показали, что тот же метод может эффективно измерить и улучшить калибровку крупных языковых моделей, лучше выравнивая слова, которые модели используют для выражения уверенности с точностью их прогнозов.

Помогая радиологам более точно описать вероятность определенных патологий в медицинских изображениях, эта новая структура может повысить надежность критической клинической информации.

«Слова используются радиологи важны. Они влияют на то, как вмешиваются врачи, с точки зрения принятия решений для пациента. Если эти практикующие могут быть более надежными в своих отчетах, пациенты будут конечными бенефициарами», – говорит Пейки Ван, аспирант MIT и ведущий автор документа по этому исследованию.

В документе присоединился старший автор Полину Голланд, профессор электротехники и компьютерных наук (EECS) Санлин и Присцилла Чоу (EECS), главный следователь в лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и лидером медицинской группы; а также Барбара Д. Лам, клинический сотрудник в медицинском центре Бет Израиль Дьяконесса; Yingcheng Liu, аспирант MIT; Ameneh Asgari-Targhi, научный сотрудник Massachusetts General Brigham (MGB); Rameswar Panda, сотрудник исследования в лаборатории MIT-IBM Watson AI; Уильям М. Уэллс, профессор радиологии в MGB и исследователь в CSAIL; и Тина Капур, доцент кафедры радиологии в MGB. Исследование будет представлено на Международной конференции по обучению.

Декодирование неопределенности в словах

Рентгенолог, пишущий отчет о рентгенографии грудной клетки, может сказать, что изображение показывает «возможную» пневмонию, которая является инфекцией, которая воспаляет воздушные мешочки в легких. В этом случае врач может заказать последующее КТ, чтобы подтвердить диагноз.

Однако, если рентгенолог пишет, что рентген показывает «вероятную» пневмонию, доктор может немедленно начать лечение, например, путем назначения антибиотиков, при этом при этом приказывая дополнительные тесты для оценки тяжести.

По словам Ван, попытка измерить калибровку или надежность неоднозначных терминов естественного языка, таких как «возможно» и «вероятно».

Существующие методы калибровки, как правило, полагаются на оценку доверия, предоставленную моделью ИИ, которая представляет предполагаемую вероятность модели, что ее прогноз является правильным.

Например, приложение погоды может предсказать 83 -процентную вероятность дождя завтра. Эта модель хорошо калибрована, если, во всех случаях, когда она предсказывает 83-процентную вероятность дождя, идет дождь примерно в 83 процента времени.

«Но люди используют естественный язык, и если мы сопоставляем эти фразы с одним числом, это не точное описание реального мира. Если человек говорит, что событие« вероятно », он не обязательно думает о точной вероятности, таких как 75 процентов», – говорит Ван.

Вместо того, чтобы пытаться отображать фразы определенности с одним процентом, подход исследователей рассматривает их как распределения вероятностей. Распределение описывает диапазон возможных ценностей и их вероятности – подумайте о классической кривой колокола в статистике.

«Это отражает больше нюансов того, что означает каждое слово», – добавляет Ван.

Оценка и улучшение калибровки

Исследователи использовали предыдущую работу, которая обследовала рентгенологов для получения распределений вероятностей, которые соответствуют каждой диагностической фразе уверенности, начиная от «очень вероятности» до «согласованного».

Например, поскольку все больше рентгенологов считают, что фраза «в соответствии с» означает, что патология присутствует в медицинском изображении, ее распределение вероятностей резко поднимается до высокого пика, причем большинство значений сгруппированы в диапазоне от 90 до 100 процентов.

Напротив, фраза «может представлять» передает большую неопределенность, что приводит к более широкому колокольчивому распределению, сосредоточенному на 50 процентов.

Типичные методы оценивают калибровку, сравнивая, насколько хорошо предсказанные оценки вероятности модели соответствуют фактическому количеству положительных результатов.

Подход исследователей следует той же общей структуре, но распространяет его на то, что фразы определенности представляют собой распределения вероятностей, а не вероятности.

Чтобы улучшить калибровку, исследователи сформулировали и решили проблему оптимизации, которая регулирует, как часто используются определенные фразы, чтобы лучше согласовать уверенность с реальностью.

Они получили карту калибровки, которая предполагает определенные термины, которые рентгенолог должен использовать, чтобы сделать отчеты более точными для конкретной патологии.

«Возможно, для этого набора данных, если каждый раз, когда рентгенолог говорил, что пневмония была« присутствующей », они меняли фразу, чтобы« вероятно, присутствовать », тогда они станут лучше», – объясняет Ван.

Когда исследователи использовали свою структуру для оценки клинических отчетов, они обнаружили, что рентгенологи, как правило, недооценки при диагностике общих состояний, таких как ателектаз, но чрезмерно уверены в более неоднозначных состояниях, таких как инфекция.

Кроме того, исследователи оценили надежность языковых моделей, используя свой метод, обеспечивая более тонкое представление доверия, чем классические методы, которые основаны на оценках доверия.

«Часто эти модели используют фразы, такие как« конечно ». Но поскольку они настолько уверены в своих ответах, это не побуждает людей проверять правильность самих утверждений », – добавляет Ван.

В будущем исследователи планируют продолжать сотрудничать с клиницистами в надежде на улучшение диагнозов и лечения. Они работают, чтобы расширить свое исследование, чтобы включить данные из КТ -сканирования брюшной полости.

Кроме того, они заинтересованы в изучении того, как восприимчивые рентгенологи представляют предложения, улучшающие калибровку, и могут ли они мысленно регулировать свое использование фраз определенности.

«Экспрессия диагностической уверенности является решающим аспектом радиологического отчета, поскольку она влияет на значительные решения о лечении. Это исследование использует новый подход к анализу и калиброванию того, как рентгенологи выражают диагностическую уверенность в рентгеновских лучах грудной клетки, предлагая обратную связь с условиями использования и связанных с ними результатов»,-говорит Атул Б. Шинагаре, доцент профессора радиологии в Медицинской школе Барвард, который не был связан с этой работой. «Этот подход может повысить точность и общение рентгенологов, что поможет улучшить уход за пациентами».

Работа была частично профинансирована стипендией Takeda, лабораторией MIT-IBM Watson AI, исследованием MIT CSAIL Wistron Research и клиникой MIT Jameel.

Source link

Scroll to Top