Экологи находят слепые пятна моделей компьютерного зрения при извлечении изображений дикой природы | MIT News

Попробуйте сфотографировать каждый из примерно 11 000 видов деревьев в Северной Америке, и у вас будет всего лишь часть миллионов фотографий в наборах данных изображения Nature. Эти массовые коллекции снимков – от бабочек до горбатых китов – являются отличным инструментом исследования для экологов, поскольку они предоставляют доказательства уникального поведения организмов, редких условий, моделей миграции и реакций на загрязнение и другие формы изменения климата.

Несмотря на всеобъемлющие наборы данных о природном изображении еще не так полезны, как могли бы. Поиск по этим базам данных имеет много времени и получение изображений, наиболее важных для вашей гипотезы. Вам будет лучше с автоматизированным исследовательским помощником – или, возможно, систем искусственного интеллекта, называемых мультимодальными моделями языка зрения (VLMS). Они обучаются как на тексту, так и на изображениях, что облегчает их определять более тонкие детали, например, конкретные деревья на заднем плане фотографии.

Но насколько хорошо VLM могут помочь исследователям природы с поиском изображения? Команда из лаборатории компьютерной науки и искусственного интеллекта MIT (CSAIL), Университетского колледжа Лондона, Инатуриста и в других местах разработала тест на производительность. Каждая задача VLM: найти и реорганизовать наиболее важные результаты в наборе данных «запрос» команды, состоящие из 5 миллионов изображений дикой природы и 250 подсказок поиска от экологов и других экспертов по биоразнообразию.

Ищу эту специальную лягушку

В этих оценках исследователи обнаружили, что более крупные, более продвинутые VLM, которые обучаются гораздо большему количеству данных, иногда могут получить исследователей результаты, которые они хотят увидеть. Модели хорошо выполнялись по простым запросам о визуальном содержании, таких как определение мусора на рифе, но значительно боролись с запросами, требующими экспертных знаний, таких как определение конкретных биологических условий или поведения. Например, VLM несколько легко обнаружили примеры медузы на пляже, но боролись с более техническими подсказками, такими как «аксантизм в зеленой лягушке», состояние, которое ограничивает их способность делать свою кожу желтой.

Их результаты показывают, что моделям нуждаются в гораздо более специфичных для доменах обучающих данных для обработки сложных запросов. Студент PhD MIT Эдвард Вендроу, филиал CSAIL, который руководил работой над набором данных в новой статье, считает, что, ознакомившись с более информативными данными, VLM могут однажды стать отличными научными сотрудниками. «Мы хотим построить системы поиска, которые находят точные результаты, которые искали, которые искали, которые стремятся к мониторингу биоразнообразия и анализе изменения климата», – говорит Вендроу. «Мультимодальные модели еще не совсем понимают более сложный научный язык, но мы считаем, что запрос станет важным эталоном для отслеживания того, как они улучшают понимание научной терминологии и в конечном итоге помогать исследователям автоматически найти точные изображения, которые им нужны».

Эксперименты команды показали, что более крупные модели были более эффективными как для более простых, так и для более сложных поисков из -за их обширных данных обучения. Сначала они использовали набор данных по запросу для проверки, может ли VLMS сузить пул из 5 миллионов изображений до 100 наиболее значительных результатов (также известных как «рейтинг»). Для простых поисковых запросов, таких как «риф с искусственными структурами и мусором», относительно крупные модели, такие как «Siglip», обнаружили подходящие изображения, в то время как модели клип меньшего размера боролись. Согласно Vendrow, более крупные VLM «начинают быть полезными» только в ранжировании более жестких запросов.

Вендроу и его коллеги также оценили, насколько хорошо мультимодальные модели могут повторно оценить эти 100 результатов, реорганизуя, какие изображения были наиболее актуальны для поиска. В этих тестах даже огромные LLM, обученные более кураторским данным, как GPT-4O, боролись: его точный балл составлял всего 59,6 процента, что наивысшая оценка, достигнутая любой моделью.

Исследователи представили эти результаты на конференции по системам обработки нейронной информации (Neurips) в начале этого месяца.

Запрашивать для запроса

Набор данных по запросу включает в себя поисковые запросы, основанные на дискуссиях с экологами, биологами, океанографами и другими экспертами о типах изображений, которые они будут искать, включая уникальные физические условия и поведение животных. Затем команда аннотаторов потратила 180 часов на поиск набора данных INATURALIST с этими подсказками, тщательно проникнув примерно 200 000 результатов, чтобы пометить 33 000 совпадений, которые соответствуют подсказкам.

Например, аннотаторы использовали запросы, такие как «краб отшельника, использующий пластиковые отходы в качестве ее оболочки» и «Калифорнийский кондор, помеченный зеленым 26», для определения подмножества более крупного набора данных изображения, которые изображают эти конкретные, редкие события.

Затем исследователи использовали те же поисковые запросы, чтобы увидеть, насколько хорошо VLMS может извлечь непотасные изображения. Ярлыки аннотаторов раскрылись, когда модели изо всех сил пытались понять ключевые слова ученых, поскольку их результаты включали изображения, ранее помеченные как не относящиеся к поиску. Например, результаты VLMS для «красных деревьев с огненными шрамами» иногда включали изображения деревьев без каких -либо маркировки.

«Это тщательное курирование данных, с акцентом на получение реальных примеров научных исследований в области исследований в области экологии и науки о окружающей среде», – говорит Сара Бири, доцент по развитию карьеры Гомера А. Бернелла в MIT, главный следователь CSAIL, и Совместный автор работы. «Это оказалось жизненно важным для расширения нашего понимания текущих возможностей VLM в этих потенциально эффективных научных условиях. В нем также были описаны пробелы в текущих исследованиях, которые мы теперь можем работать, особенно для сложных композиционных запросов, технической терминологии и мелкозернистых, тонких различий, которые определяют интересующие категории для наших сотрудников ».

«Наши результаты подразумевают, что некоторые модели зрения уже достаточно точны, чтобы помочь ученым-дикой природе извлечь некоторые изображения, но многие задачи все еще слишком сложны даже для самых больших, наиболее эффективных моделей»,-говорит Вендроу. «Несмотря на то, что запрос ориентирован на экологию и мониторинг биоразнообразия, широкое разнообразие его запросов означает, что VLM, которые хорошо работают на запросе, могут преуспеть при анализе крупных коллекций изображений в других областях, устойчивых к наблюдению».

Вопросы, мы хотят увидеть

Принимая свой проект дальше, исследователи работают с Inaturalist, чтобы разработать систему запросов, чтобы лучше помочь ученым и другими любопытными умом найти изображения, которые они действительно хотят увидеть. Их работающая демонстрация позволяет пользователям фильтровать поиск по видам, что позволяет быстрее обнаружить соответствующие результаты, например, разнообразные цвета глаз кошек. Вендроу и автор соавтора Омирос Пантазис, который недавно получил докторскую степень в Университетском колледже Лондона, также стремятся улучшить систему повторного обслуживания путем увеличения текущих моделей, чтобы обеспечить лучшие результаты.

Университет Питтсбурга доцент профессора Джастин Китцс подчеркивает способность Inquire раскрывать вторичные данные. «Наборы данных биоразнообразия быстро становятся слишком большими для любого отдельного ученого, чтобы рассмотреть», – говорит Китц, который не участвовал в исследовании. «Эта статья привлекает внимание к сложной и нерешенной проблеме, которая заключается в том, как эффективно искать такие данные с вопросами, которые выходят за рамки просто« кто здесь », чтобы спросить вместо этого об индивидуальных характеристиках, поведении и видовых взаимодействиях. Возможность эффективно и точно раскрыть эти более сложные явления в данных изображения биоразнообразия будет иметь решающее значение для фундаментальной науки и реальных воздействий на экологию и сохранение ».

Вендроу, Пантазис и Бери написали газету вместе с инженером-программистом инатуристом Александра Шепарда, профессора Лондона Университета Лондона Габриэлем Бростоу и Кейт Джонс, доцентом Эдинбургского университета и автора соучредителя Гранта Грант Ван. Хорн, который служил автором сознания. Их работа была частично поддержана лабораторией Генеративной ИИ в Эдинбургском университете, Национальном научном фонде США/Совета по естественным наукам и инженерным исследованиям Канады Глобального центра ИИ и изменения биоразнообразия, гранта Королевского общества и биома Проект здравоохранения, финансируемый Всемирным фондом дикой природы Великобритания.

Source link

Scroll to Top