Гражданские научные платформы, такие как Inaturalist, увеличились в популярности, что подпитывает быстрое развитие моделей фонда биоразнообразия. Тем не менее, такие данные по своей природе предвзяты и собираются оппортунистическим образом, который часто искажается в определенных местах, времени, видах, уровнях опыта наблюдателя и состояниях.
Наша работа под названием «Divshift: изучение специфичных для домена сдвиги распределения в крупномасштабных наборах данных о биоразнообразии добровольцев, созданных добровольцами»Решает проблему количественной оценки воздействия этих предубеждений на производительность модели глубокого обучения.
Предвзятые данные в научных данных гражданских наук
Предвзятость, присутствующие в данных о биоразнообразии, включают пространственную предвзятость, временную предвзятость, таксономическое предвзятость, предвзятость наблюдателя и социально -политическую предвзятость.
Модели ИИ, как правило, предполагают, что учебные данные являются независимыми и одинаковыми распределенными (IID). Но данные о биоразнообразии, собранные добровольцами, бросают вызов этим предположениям. Например, городские районы или харизматические виды, такие как цветущие цветы, получают непропорциональное внимание. Эти предубеждения были хорошо документированы в экологической литературе, но часто подчеркнуты или игнорируются в разработке моделей глубокого обучения из этих данных. Такая неровная выборка может ограничить точность модели в менее посещаемых регионах и для менее харизматических видов. Кроме того, без учета этих предубеждений, модели, обученные гражданским научным данным, рискуют вводить в заблуждение усилия по сохранению и терпеть неудачу там, где они наиболее необходимы.
Фреймворк Divshift и набор данных Divshift-NAWC
Структура смены разнообразия (divshift) (а) количественно определяет воздействие специфических для домена смещений путем первого разделения данных на разделы PА и рБеременный Использование экспертных типов предвзятости. Затем воздействие смещения количественно определяется путем измерения точности моделей, обученных PПоезд Использование рТест и рB Тест который дополнительно сравнивается с (b) сдвигом распределения между метками в pПоезд на этикетки в PТест и рB Тест Используя дивергенцию Дженсена-Шеннона (JSD).
Мы представляем Дивизионструктура, которая отражает предвзятость как «сдвиги распределения, специфичные для домена» для анализа воздействия смещений данных на производительность модели искусственного интеллекта. От истинного распределения биоразнообразия, Джнаши данные, Дюймовый наблюдений от волонтерских наблюдателей имеет предвзятый процесс отбора проб. Мы раздел Дюймовый в ПА и ПБеременный По некоторым известным смещению в данных, и мы измеряем разницу между перегородками через дивергенцию Дженсен-Шаннон (в данном случае мы используем распределение видов метки). Затем мы сравниваем эту меру с эффективностью модели глубокого обучения. Эта структура дает представление о том, как модели обобщаются при переходе от богатых данных к областям данных, плюс приложения, находящиеся в доменной области, и помогают количественно определить, как исчезновение отбора проб, особенно в отношении чувствительных таксонов или географических подгрупп.
(а) График плотности недостатков дивизионного NAWC. Наблюдения искажены нам и прибрежным государствам. (b) Divshift-NAWC охватывает разнообразный набор среде обитания и экосистем, (c) наряду с климатом. (d) Наблюдения за девственным NAWC сосредоточены в районах, модифицированных человеком (2).
Мы соединяем эту структуру с Divshift- Североамериканское западное побережье (NAWC) набор данных. Он состоит из почти 7,5 миллионов изображений растений от Inaturalist, охватывающего североамериканское западное побережье. Критически, Divshift-NAWC разделяет эти изображения вдоль пяти оси документированного смещения:
- Пространственное: Городские и дикие районы с использованием индекса человеческого следа
- Временный: Круглогодичная коллекция по сравнению с эпизодическими событиями (например, биоблими) с использованием City Nature Challenge
- Таксономический: Длиннохвостые и сбалансированные данные обучения
- Наблюдение за наблюдателем: Заинтересованные и случайные наблюдатели с использованием количества наблюдений
- Социально -политический: Государственные границы.
Это тщательное разделение позволяет подробно исследовать предубеждения по ключевым экологическим и социальным аспектам.
Ключевые идеи из нашего тематического исследования
Мы применяем структуру Divshift к набору данных Div-NAWC для мелкозернистой визуальной классификации видов растений. Мы работаем под контролем обучения на Resnet-18 со стандартными параметрами обучения и измеряем точность TOP-1 для восьми различных категорий.(а) искажает характеристики на приезжающие районы, но (б) самые дикие виды остаются позади
Пространственное предвзятость: Модели выполнялись лучше всего в городских, плотно защищенных средах, но значительно боролись в районах дикой природы из-за отсутствия данных обучения.
Временная предвзятость: Непрерывные круглогодичные наблюдения привели к более высокой производительности модели, чем данные из целенаправленных краткосрочных биобликов.
Таксономическая предвзятость: Уравновешивание наборов данных улучшило обнаружение редких видов, но ухудшалась производительность для общих видов, подчеркивая компромисс в зависимости от целей сохранения.
Наблюдение за наблюдателем: Данные из высокоинтересных, частых наблюдателей повышали точность модели. И наоборот, вклады случайных пользователей негативно повлияли на производительность.
Социально -политическая предвзятость: Географическое и экологическое расстояние коррелировало наряду с точностью. Однако эта корреляция различалась в зависимости от состояния обучения и плотности данных.
Рекомендации
Наши результаты приводят в рекомендации для обучения моделей биоразнообразия:
- Пространственное: Добавить данные гражданина в районах дикой природы с целевыми, экспертными опросами.
- Временный: Поощряйте непрерывный сбор данных, а не полагаться исключительно на периодические события сбора.
- Таксономический: Выберите стратегии курирования данных обучения, основываясь на том, следует ли определять приоритеты редких или общих видов.
- Наблюдатель: Расстановите приоритеты данных от частых участников и рассмотрите фильтрацию спорадических наблюдателей.
- Социально -политический: Реализуйте дополнительные процессы проверки или целевую выборку в областях с низкой датой, чтобы обеспечить надежное обобщение.
Ограничения, будущие направления и вывод
Divshift-NAWC не захватывает всех возможных смещений (таких как тонкие географические или межсекционные смещения), и не глубоко погружается в смешанные переменные в разделениях смещения. Будущая работа направлена на включение неконтролируемого обучения и дополнительных метаданных окружающей среды для дальнейшего уточнения стратегий обнаружения и смягчения смещения, а также для адреса доступности и качества метки.
При ускорении потери биоразнообразия в мире срочно необходимы точные и справедливые инструменты ИИ. Наша структура Divshift предлагает практический способ понять и противодействовать предубеждениям в наборах данных биоразнообразия, созданных добровольцами, что обеспечивает более надежные экологические модели. Мы считаем, что эти идеи и инструменты помогут максимизировать огромный потенциал гражданской науки и машинного обучения при сохранении биоразнообразия.
AAAI Труды | Расширенная бумага | Набор данных | Код
Эта работа выиграла выдающуюся награду AAAI-25-AI за трек социального выравнивания.
Теги: aaai, aaai2025
Елена Сьерра – студентка BS/MS в области электротехники и компьютерных наук в Стэнфордском университете
Елена Сьерра – студентка BS/MS в области электротехники и компьютерных наук в Стэнфордском университете
Лорен Гиллеспи – аспирант в области компьютерных наук в Стэнфордском университете