Исследователи уменьшают предвзятость в моделях ИИ при сохранении или повышении точности | MIT News

Модели машинного обучения могут потерпеть неудачу, когда они пытаются сделать прогнозы для людей, которые были недопредставлены в наборах данных, на которых они были обучены.

Например, модель, которая прогнозирует лучший вариант лечения для человека с хроническим заболеванием, может быть обучена с использованием набора данных, который содержит в основном пациентов мужского пола. Эта модель может сделать неверные прогнозы для пациентов, когда они развернуты в больнице.

Для улучшения результатов инженеры могут попытаться сбалансировать учебный набор данных, удаляя точки данных, пока все подгруппы не будут представлены одинаково. В то время как баланс наборов данных является многообещающим, часто требуется удаление большого количества данных, что наносит ущерб общей производительности модели.

Исследователи MIT разработали новую технику, которая идентифицирует и удаляет конкретные моменты в учебном наборе данных, который вносит наибольшую вклад в сбои модели в подгруппах меньшинства. Удаляя гораздо меньше данных, чем другие подходы, этот метод поддерживает общую точность модели, повышая ее производительность в отношении недопредставленных групп.

Кроме того, методика может идентифицировать скрытые источники предвзятости в учебном наборе данных, в котором отсутствуют этикетки. Неремеченные данные гораздо более распространены, чем помеченные данные для многих приложений.

Этот метод также может быть объединен с другими подходами для улучшения справедливости моделей машинного обучения, развернутых в ситуациях с высокими ставками. Например, когда -нибудь это может помочь гарантировать, что недопредставленные пациенты не ошибаются из -за предвзятой модели ИИ.

«Многие другие алгоритмы, которые пытаются решить эту проблему, предполагают, что каждая дата имеет значение так же, как и любой другой дат. В этой статье мы показываем, что предположение не соответствует действительности. В нашем наборе данных есть конкретные моменты, которые способствуют этому предвзятости, и мы можем найти эти точки данных, удалить их и получить лучшую производительность », – говорит Кимия Хамидих, аспирант -аспирант электротехники и компьютерные науки (EECS) в MIT и CO -Лад автор статьи об этой технике.

Она написала газету с авторами со-лидеров Saachi Jain PhD ’24 и коллегой по выпускникам EECS Кристиан Георгиев; Эндрю Ильяс Мэн ’18, доктор философии 23 года, стипендиат Stein в Стэнфордском университете; и старшие авторы Marryeh Ghassemi, доцент EECS и член Института медицинских наук и лаборатории для систем информации и решений, а также Александер Мэдри, профессор систем дизайна каденции в MIT. Исследование будет представлено на конференции по системам обработки нейронной информации.

Удаление плохих примеров

Часто модели машинного обучения обучаются с использованием огромных наборов данных, собранных из многих источников по всему Интернету. Эти наборы данных слишком велики, чтобы быть тщательно курируемыми вручную, поэтому они могут содержать плохие примеры, которые наносят ущерб производительности модели.

Ученые также знают, что некоторые точки данных влияют на производительность модели на определенные нисходящие задачи больше, чем другие.

Исследователи MIT объединили эти две идеи в подход, который идентифицирует и удаляет эти проблемные данные. Они стремятся решить проблему, известную как ошибка наихудшей группы, которая возникает, когда модель снижается на подгруппах меньшинства в учебном наборе данных.

Новая техника исследователей обусловлена ​​предыдущей работой, в которой они ввели метод, называемый TRAK, который определяет наиболее важные примеры обучения для конкретного вывода модели.

Для этой новой техники они принимают неправильные прогнозы, которые модель сделала о подгруппах меньшинства и использует TRAK, чтобы определить, какие примеры обучения внесли наибольший вклад в этот неправильный прогноз.

«Правильно агрегируя эту информацию по плавному тестированию, мы можем найти конкретные части обучения, которые в целом снижают точность наихудшей группы»,-объясняет Ильяс.

Затем они удаляют эти конкретные образцы и перепродают модель на оставшихся данных.

Поскольку наличие большего количества данных обычно дает лучшую общую производительность, удаление только образцов, которые приводят к сбоям худших групп, сохраняет общую точность модели, повышая ее производительность в подгруппах меньшинства.

Более доступный подход

В трех наборах данных машинного обучения их метод превзошел несколько методов. В одном случае это повысило точность худшей группы, сняв примерно на 20 000 более образовательных образцов, чем обычный метод балансировки данных. Их методика также достигла более высокой точности, чем методы, которые требуют внесения изменений в внутреннюю работу модели.

Поскольку метод MIT включает в себя изменение набора данных, практикующим врачам было бы легче использовать и может применяться ко многим типам моделей.

Его также можно использовать, когда смещение неизвестно, потому что подгруппы в учебном наборе данных не помечены. Выявляя Datapoints, которые вносят наибольший вклад в функцию, которую модель изучает, они могут понять переменные, которые он использует для прогнозирования.

«Это инструмент, который можно использовать, который может использовать, когда они обучают модель машинного обучения. Они могут взглянуть на эти данные и посмотреть, соответствуют ли они возможности, которую они пытаются научить модели », – говорит Хамидих.

Использование методики для обнаружения неизвестной предвзятости подгруппы потребует интуиции о том, какие группы будут искать, поэтому исследователи надеются проверить ее и более полно изучить его в будущих исследованиях на людях.

Они также хотят повысить производительность и надежность своей техники и обеспечить доступ к методу и простым в использовании для практикующих, которые могут когда-нибудь развернуть его в реальных средах.

«Когда у вас есть инструменты, которые позволят вам критически взглянуть на данные и выяснить, какие данные даты приведут к предвзятости или другому нежелательному поведению, это дает вам первый шаг к созданию моделей, которые будут более справедливыми и более надежными», – Илиас говорит.

Эта работа финансируется, в частности, Национальным научным фондом и Агентством по передовым исследовательским проектам США.

Source link

Scroll to Top