3 вопроса: как помочь студентам распознать потенциальную предвзятость в своих наборах данных ИИ | MIT News

Каждый год тысячи студентов проходят курсы, которые обучают их, как развертывать модели искусственного интеллекта, которые могут помочь врачам диагностировать заболевание и определять соответствующие методы лечения. Тем не менее, многие из этих курсов пропускают ключевой элемент: обучать студентов обнаружить недостатки в учебных данных, используемых для разработки моделей.

Лео Энтони Сели, старший научный сотрудник из Института медицинской инженерии и науки MIT, врач Медицинского центра Бет Исраэль -Дьяконесса и доцент Гарвардской медицинской школы, задокументировал эти недостатки в Новая бумага и надеется убедить разработчиков курса научить студентов более тщательно оценивать свои данные, прежде чем включить их в свои модели. Многие предыдущие исследования показали, что модели, обученные в основном по клиническим данным белых мужчин, не работают хорошо, когда применяются к людям из других групп. Здесь Сели описывает влияние такого предвзятости и того, как педагоги могут рассмотреть его в своих учениях о моделях ИИ.

Q: Как предвзятость попадает в эти наборы данных и как эти недостатки могут быть устранены?

A: Любые проблемы в данных будут испечены в любом моделировании данных. В прошлом мы описали инструменты и устройства, которые не очень хорошо работают между людьми. В качестве одного примера, мы обнаружили, что пульсные оксимеры переоценивают уровень кислорода для цветных людей, потому что в клинических испытаниях устройств не было достаточно цветных людей. Мы напоминаем нашим студентам, что медицинские устройства и оборудование оптимизированы на здоровых молодых мужчин. Они никогда не были оптимизированы для 80-летней женщины с сердечной недостаточностью, и все же мы используем их для этих целей. И FDA не требует, чтобы устройство хорошо работало над этим разнообразным населением, на котором мы будем использовать его. Все, что им нужно, это доказательство того, что он работает на здоровых предметах.

Кроме того, электронная система медицинской записи не в форме не будет использоваться в качестве строительных блоков ИИ. Эти записи не были предназначены для того, чтобы быть системой обучения, и по этой причине вы должны быть очень осторожны с использованием электронных медицинских карт. Электронная система медицинских карт должна быть заменена, но это не произойдет в ближайшее время, поэтому мы должны быть умнее. Мы должны быть более креативными в использовании данных, которые у нас есть сейчас, независимо от того, насколько они плохи, в создании алгоритмов.

Одним из перспективных проспектов, которые мы исследуем, является разработка трансформаторной модели цифровых данных электронных медицинских карт, включая, помимо прочего, результаты лабораторных испытаний. Моделирование основной взаимосвязи между лабораторными тестами, жизненно важными признаками и лечением может смягчить эффект отсутствующих данных в результате социальных детерминантов здоровья и неявных предубеждений поставщика.

Q: Почему для курсов в ИИ важно покрыть источники потенциального предвзятости? Что вы обнаружили, когда анализировали содержание таких курсов?

A: Наш курс в MIT начался в 2016 году, и в какой -то момент мы поняли, что мы поощряем людей участвовать в гонках за создание моделей, которые переполнены некоторой статистической мерой производительности модели, когда на самом деле данные, которые мы используем, изобилуют проблемами, о которых люди не знают. В то время нам было интересно: насколько распространена эта проблема?

Наше подозрение было то, что если вы посмотрели на курсы, где программа доступна в Интернете, или на онлайн -курсы, что никто из них даже не беспокоит студентов, что они должны быть параноиком в отношении данных. И правда, когда мы посмотрели на различные онлайн -курсы, все дело в создании модели. Как создать модель? Как визуализировать данные? Мы обнаружили, что из 11 курсов, которые мы рассмотрели, только пять включали разделы о смещении в наборах данных, и только два содержали какое -либо существенное обсуждение предвзятости.

Тем не менее, мы не можем сбрасывать со счетов ценность этих курсов. Я слышал много историй, в которых люди самостоятельно изучают эти онлайн-курсы, но в то же время, учитывая, насколько они влиятельны, насколько они влияют, нам нужно действительно удвоить, требуя от них обучения правильным наборам, поскольку все больше и больше людей привлечены к этому мультивселю AI. Для людей важно по -настоящему вооружить себя агентством, чтобы иметь возможность работать с ИИ. Мы надеемся, что эта статья будет освещать этот огромный разрыв в том, как мы преподаем ИИ сейчас для наших студентов.

Q: Какой контент должен включать разработчики курса?

A: Во -первых, давая им контрольный список вопросов в начале. Откуда взялись эти данные? Кто были наблюдателями? Кто были врачами и медсестрами, которые собрали данные? А потом узнайте немного о ландшафте этих учреждений. Если это база данных ICU, им нужно спросить, кто попадает в ICU, а кто не попадает в ICU, потому что это уже представляет предвзятость выбора отбора проб. Если все пациенты с меньшинством даже не поступают в отделение интенсивной терапии, потому что они не могут вовремя достигать ОИТ, то модели не будут работать на них. Действительно, для меня 50 процентов содержания курса действительно должны быть пониманием данных, если не больше, потому что само моделирование легко, как только вы понимаете данные.

С 2014 года консорциум критических данных MIT организует DataThons (данные «хакатоны») по всему миру. На этих собраниях врачи, медсестры, другие работники здравоохранения и ученые данных собираются вместе, чтобы прочесывать базы данных и пытаться изучить здоровье и болезнь в местном контексте. Учебники и документы в журнале представляют заболевания, основанные на наблюдениях и испытаниях, включающих узкую демографию, обычно из стран с ресурсами для исследований.

Наша главная цель сейчас, чему мы хотим их научить, – это навыки критического мышления. А основным ингредиентом для критического мышления является объединение людей с разным опытом.

Вы не можете преподавать критическое мышление в комнате, полной руководителей или в комнате, полной врачей. Окружающей среды просто нет. Когда у нас есть данные, нам даже не нужно учить их, как вы делаете критическое мышление. Как только вы принесете правильное сочетание людей – и это не только из разных слоев общества, но и из разных поколений – вам даже не нужно рассказывать им, как критически думать. Это просто случается. Окружающая среда подходит для такого мышления. Итак, теперь мы сообщаем нашим участникам и нашим студентам, пожалуйста, не начинайте создавать какую -либо модель, если вы действительно не понимаете, как появились данные, какие пациенты попали в базу данных, какие устройства использовались для измерения, и являются ли эти устройства постоянно точными между людьми?

Когда у нас есть события по всему миру, мы призываем их искать локальные наборы данных, чтобы они были актуальны. Есть сопротивление, потому что они знают, что узнают, насколько плохи их наборы данных. Мы говорим, что это нормально. Вот как вы это исправляете. Если вы не знаете, насколько они плохи, вы будете продолжать собирать их очень плохо, и они бесполезны. Вы должны признать, что не собираетесь сделать это правильно с первого раза, и это прекрасно. Mimic (медицинская информация, помеченная для базы данных интенсивной терапии, построенной в Медицинском центре Бет Израиль Дьяконесса), заняла десять лет до того, как у нас была приличная схема, и у нас есть только приличная схема, потому что люди рассказывали нам, насколько плохими были имитированы.

У нас может не быть ответов на все эти вопросы, но мы можем вызвать что -то у людей, что помогает им понять, что в данных так много проблем. Я всегда очень рад взглянуть на посты в блоге от людей, которые посетили Datathon, которые говорят, что их мир изменился. Теперь они более взволнованы этой областью, потому что они осознают огромный потенциал, но также и огромный риск вреда, если они не делают это правильно.

Source link

Scroll to Top