Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше
Основные названия опустошали его в течение многих лет: модели крупных языков (LLMS) могут не только сдавать медицинские лицензионные экзамены, но и превзойти людей. GPT-4 мог бы правильно ответить на вопросы о разрешении на медицинское обследование США в 90% случаев, даже в доисторические дни AI 2023 года. С тех пор LLMS продолжили лучших жителей, сдав эти экзамены и уполномоченные врачи.
Cross, Dr. Google, сделайте путь для Chatgpt, MD, но вы можете захотеть больше, чем диплом от LLM, который вы разворачиваете для пациентов. Будучи студентом из Ace Medicine, который может ограбить имя каждой кости в руке, но на первом взгляде в обморок, видя настоящую кровь, мастерство медицины LLM не всегда переводится непосредственно в реальный мир.
Документ исследователей из Оксфордского университета обнаружил, что, хотя LLMS может правильно идентифицировать соответствующие условия в 94,9% случаев, когда они непосредственно представлены с тестовыми сценами, участники человека, использующие LLMS для диагностики тех же сценариев, выявили правильные условия менее 34,5% времени.
Возможно, даже более особенно, пациенты, использующие LLMS, действовали даже хуже, чем контрольная группа, которая была дана инструктажем диагностировать себя «любыми методами, которые они обычно используют дома». Группа, оставленная на своих собственных устройствах, была на 76% чаще выявлять правильные условия, чем группа, которым помогает LLMS.
Оксфордские исследования поднимают вопросы о пригодности LLM для медицинских советов и ссылок, которые мы используем для оценки развертывания разговоров для различных приложений.
Угадай, твоя Маладия
Во главе с доктором Адамом Махди исследователи из Оксфорда наняли 1,298 участников, чтобы представить себя пациентами в LLM. Им была дана задача как попытке рассчитать то, что сделало их больными, так и соответствующий уровень заботы, чтобы искать ее, что вызывает от самообслуживания, чтобы вызвать скорую помощь.
Каждый участник получил подробный сценарий, представляющий условия от пневмонии до простуды, наряду с деталями общей жизни и историей болезни. Например, в одном сценарии описывается 20-летний инженерный студент, у которого развивается искалекая головная боль в течение ночи с друзьями. Он включает в себя важные медицинские детали (больно смотреть вниз) и красная сельдь (он обычный пьющий, разделяет квартиру с шестью друзьями и только что закончил некоторые стрессовые экзамены).
Исследование проверило три разных LLM. Исследователи выбрали GPT-4O из-за своей популярности, Lama 3 за его открытые веса и командование R+ для его способностей к восстановлению поколения (RAG), которые позволяют ему искать открытый веб-сайт для помощи.
Участникам было предложено взаимодействовать с LLM, по крайней мере, один раз, используя приведенные детали, но они могли использовать их столько раз, сколько они хотели бы прийти к их самодиагностике и предполагаемой деятельности.
За кулисами команда врачей единогласно выбрала «золотые стандарты», которые они искали в каждом сценарии и соответствующем выступлении. Например, наш инженерный студент страдает от субарахноидального кровоизлияния, которое должно привести к немедленному посещению ER.
Телефонная игра
Хотя вы можете предположить, что LLM, который может провести медицинское обследование, будет идеальным инструментом, чтобы помочь обычным людям самодиагностику и выяснить, что делать, это не оказалось таким образом. «Участники, использующие LLM, определили эти условия менее последовательно, чем в контрольной группе, выявив по меньшей мере одно соответствующее условие в максимум 34,5% случаев по сравнению с 47,0% для контроля», – говорится в исследовании. Они также не смогли вывести правильный курс деятельности, выбрав его только 44,2% времени, по сравнению с 56,3% для LLM, действующего независимо.
Что пошло не так?
Оглядываясь назад на стенограммы, исследователи обнаружили, что участники предоставили неполную информацию LLMS, и LLMS неверно истолковали свои обещания. Например, один пользователь, который, как говорят, проявляет симптомы расчетов, только что сказал LLM: «У меня тяжелые боли в животе, длится до часа, это может заставить меня рвать и, похоже, совпадает с удалением», – опускает место боли, тяжести и частоты. Команда R+ неправильно предположил, что участник испытывает расстройство желудка, и участник неправильно угадал это условие.
Даже когда LLMS предоставила правильную информацию, участники не всегда следовали своим рекомендациям. Исследование показало, что 65,7% разговоров GPT 4O предположили, по крайней мере, одно соответствующее условие для сценария, но каким -то образом менее 34,5% окончательных ответов участников отражали эти заинтересованные условия.
Человеческая переменная
Это исследование полезно, но неудивительно, по словам Натали Волхаймер, эксперта по пользователю в Институте Ренессанса Компьютер (RENCI), Университет Северной Каролины в Чапел -Хилл.
«Для тех из нас достаточно, чтобы вспомнить первые дни онлайн -поиска, это дежавю», – говорит она. «Как инструмент, модели на больших языках требуют, чтобы обещания были написаны с определенным качеством, особенно если ожидается, что качественная производительность».
Она отмечает, что кто -то, кто испытывает слепую боль, не дает больших обещаний. Хотя участники лабораторного эксперимента не испытывали симптомов напрямую, они не сообщали о каждой детали.
«Существует также причина, по которой клиницисты, которые лечат пациентов на первой линии, обучаются задавать вопросы определенным образом и определенное повторение», – продолжает Волхеймер. Пациенты опускают информацию, потому что они не знают, что имеет значение, или, что хуже, лгут, потому что они смущены или стыдно.
Могут ли чаты быть лучше спроектированными, чтобы относиться к ним? «Я бы не стал подчеркнуть машину здесь», – предупреждает Волхеймер. «Я бы посчитал, что акцент должен быть сделан на взаимодействии с человеческим технологиями». Автомобиль, она анализа, была построена, чтобы заставить людей из пункта А до В, но многие другие факторы играют роль. «Речь идет о водителе, дорогах, погоде и общей безопасности маршрута. Это не только для машины».
Лучший двор
Оксфордское исследование подчеркивает одну проблему не с людьми или даже LLM, а в том, как мы иногда измеряем их – в вакууме.
Когда мы говорим, что LLM может сдать тест на медицинскую лицензию, экзамен по лицензии на недвижимость или экзамен на адвокатскую партию штата, мы исследуем глубину его базы знаний с инструментами, предназначенными для оценки людей. Тем не менее, эти меры очень мало рассказывают нам о том, как успешно эти разговоры будут взаимодействовать с людьми.
«Обещания были учебниками (как подтверждены источником и медицинским сообществом), но жизнь и люди не являются учебником», – объясняет доктор Волхаймер.
Представьте себе бизнес для развертывания вспомогательного чата, обученного его внутренним знаниям. Один, казалось бы, логичный способ проверить, что бот может просто сделать это тот же тест, который компания использует для тренеров по поддержке клиентов: отвечая на предписанные вопросы поддержки «клиента» и выбор ответов на несколько выборов. Точность 95%, безусловно, будет выглядеть довольно многообещающей.
Затем приходит развертывание: реальные клиенты используют смутные термины, выражают разочарование или описывают проблемы неожиданным образом. LLM, на который ссылаются только на четкие вопросы, смущен и дает неверные или препятствующие ответы. Он не был обучен и не оценен в ситуациях разбивания или эффективно поиск объяснений. Сердитые отзывы толпа. Запуск является катастрофой, несмотря на навигацию LLM через испытания, которые казались надежными для их человеческих коллег.
Это исследование служит критическим напоминанием для инженеров ИИ и специалистов по оркестровке: если LLM предназначен для взаимодействия с людьми, полагаться только неинтерактивные ссылки могут создать опасное фальшивое чувство безопасности о своих возможностях реального мира. Если вы проектируете LLM для взаимодействия с людьми, вам следует проверить его с людьми, а не тесты для людей. Но есть ли лучший способ?
Использование ИИ для тестирования ИИ
Оксфордские исследователи набрали почти 1300 человек для своего обучения, но у большинства предприятий не так много проблем с тестированием, сидящих вокруг, ожидая, чтобы играть с новым агентом LLM. Так почему бы просто не заменить тестеров искусственного интеллекта для человеческих тестеров?
Махди и его команда также попробовали это с моделируемыми участниками. «Вы пациент», – призвали они LLM, кроме того, кто даст совет. «Вам необходимо самооценку свои симптомы данного дела и помощь модели искусственного интеллекта. Упростите терминологию, используемую в данном параграфе на светском языке, и сохранить ваши вопросы или утверждения рационально короткими». LLM также был проинструктирован не использовать медицинские знания и не создавать новые симптомы.
Эти моделируемые участники затем болтали с теми же LLMS, которые использовали участники человека. Но они сделали намного лучше. В среднем моделируемые участники, использующие одинаковые LLM -Tools, прибили соответствующие условия в 60,7% случаев по сравнению с менее 34,5% у людей.
В этом случае оказывается, что LLM играют более красиво с другими LLM, чем с людьми, что делает их плохим предсказанием реальной деятельности.
Не вините пользователя
Учитывая, что баллы LLM могут достичь своих собственных, возможно, это соблазняет обвинить участников здесь. В конце концов, во многих случаях они получали правильные диагнозы в своих беседах с LLMS, но все еще не могли догадываться. Но это было бы глупым выводом для любого бизнеса, предупреждает Volkheimer.
«В каждой среде клиента, если ваши клиенты не делают то, что вы хотите, последнее, что вы делаете, это обвиняют клиента», – говорит Волхаймер. «Первое, что вы делаете, – это спросить, почему. А не« почему »с макула своей головы; но глубокий следственный, конкретный, антропологический, психологический, изученный», почему. «Это ваша отправная точка».
Польхеймер предполагает, что вы должны понять свою аудиторию, их цели и качество обслуживания клиентов, прежде чем развернуть Talkbot. Все это проинформирует тщательную специальную документацию, которая в конечном итоге будет использовать LLM. Без тщательного запуска учебных материалов, «это выплюнет какой -то общий ответ, который ненавидят все, поэтому люди ненавидят чаты», – говорит она. Когда это происходит, «не потому, что разговоры ужасны или потому, что с ними что -то технически что -то не так. Это потому, что вещи, которые вошли в них, плохие».
«Люди, проецирующие технологии, разрабатывают информацию для входа там, а процессы и системы – это люди», – говорит Волкгеймер. «У них также есть фон, предположения, дефекты и слепые, а также сильные стороны. И все эти вещи могут создать любое технологическое решение».
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.
Source link