Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Предприятия должны знать, работают ли модели, которые управляют их приложениями и агентами в реальных сценах. Этот тип оценки иногда может быть сложным, так как трудно предсказать конкретные сценарии. Восстановленная версия ссылки на вознаграждение, как и в том, чтобы дать организациям лучшее представление о реальной деятельности модели.
Алленский институт ИИ (AI2) запустил Rewardbench 2, обновленную версию своей модели вознаграждений, Rewardbench, которая, по их утверждению, дает более целостный взгляд на производительность модели и оценки в качестве моделей, соответствующих целям и стандартам компании.
AI2 построил награду с задачами классификации, которые измеряют корреляции через время вывода компьютера и обучения вниз. Rewardbench в основном обращается к моделям вознаграждений (RM), которые могут выступать в качестве судей и оценивать результаты LLM. RMS назначает оценку или «вознаграждение», что приводит к укреплению обучения через человеческую обратную связь (RHLF).
Награда 2 здесь! Нам потребовалось много времени, чтобы извлечь уроки из нашего первого инструмента оценки модели вознаграждения, чтобы сделать один, что гораздо сложнее и более коррелирует как с нисходящим RLHF, так и с выводом времени вывода. pic.twitter.com/ngetvnroqv
– ai2 (@allen_ai) 2 июня 2025 года
Натан Ламберт, старший исследователь AI2, сказал VentureBeat, что первая награда послужила задумана, когда она была запущена. Однако модельная среда быстро развивалась, и поэтому ее ссылки должны.
«Поскольку полезные модели стали более продвинутыми и используют более нюансы, мы быстро узнали с сообществом, что первая версия не полностью отражала сложность реальных человеческих предпочтений»,-сказал он.
Ламберт добавил, что с вознаграждением 2 «мы намеревались улучшить ширину и глубину оценки – включить больше, сложные обещания и уточнить методологию, чтобы лучше отражать, поскольку люди фактически судят, что ИИ приводит к практике». Он сказал, что вторая версия использует невидимые человеческие обещания, имеет более сложную оценку и новые домены.
Использование оценки для моделей, которые оценивают
Хотя модели вознаграждений проверяют, насколько хорошо работают модели, для RMS также важно соответствовать корпоративным ценностям; В противном случае хорошо созданный и укрепляющий учебный процесс может укрепить плохое поведение, такое как галлюцинации, уменьшить обобщение и оценить вредные ответы слишком высокие.
Rewardbench 2 охватывает шесть различных доменов: факт, точное обучение, математика, безопасность, фокус и ссылки.
«Предприятия должны использовать вознаграждение 2 двумя разными способами в зависимости от их применения. Если они сами выполняют RLHF, они должны принять лучшие практики и данные о ведущих моделях в своих собственных трубопроводах, потому что модели вознаграждений нуждаются в рецептах политических тренировок (т.е. сказал Ламберт.
Ламберт отметил, что такие ссылки, как rewardbench, предлагают пользователям способ оценить модели, которые они выбирают на основе «аспектов, которые наиболее важны для них, вместо того, чтобы полагаться на узкую оценку в одномерном размере». Он сказал, что идея действия, которые, как утверждают многие методы оценки, очень субъективны, потому что хороший ответ модели сильно зависит от контекста и целей пользователя. В то же время человеческие предпочтения очень нюансы.
AI 2 выпустила первую версию Rewardbench в марте 2024 года. В то время компания заявила, что это была первая ссылка и совета по моделям вознаграждений. С тех пор появилось несколько методов сравнительного анализа и улучшения RM. Исследователи на Meta Fair вышли с RewordBench. DeepSeek выпустил новую технику, называемую критической конфигурацией самопонцизов для более умной и масштабируемой RM.
Взволнован, что наша вторая модель вознаграждения вышла. Это гораздо сложнее, намного чище и хорошо коррелирует с нисходящей выборкой PPO/BON.
Счастливого холма!
Огромные поздравления @Saumyamalik44 кто возглавляет проект с полной приверженностью совершенству. https://t.co/c0b6rhtxy5
– Натан Ламберт (@natolambert) 2 июня 2025 года
Как действовали модели
Поскольку rewardbench 2 является обновленной версией вознаграждения, AI2 проверил как существующие, так и недавно обученные модели, чтобы увидеть, продолжат ли они ранжировать высокие оценки. Они включали различные модели, такие как версии близнецов, Claude, GPT-4.1 и Lama-3.1, а также базы данных и модели, такие как QWEN, Skywork и их собственный Tulu.
Компания обнаружила, что более крупные модели вознаграждений действуют лучше всего на ссылке, потому что их базовые модели сильнее. В целом, самыми сильными моделями являются варианты инструкций LAMA-3.1. Что касается фокуса и безопасности, небесные данные «особенно полезны», и Тулу на самом деле преуспел.
AI2 сказал, что, хотя вера в вознаграждение 2 «является шагом вперед в широкой многодоменной оценке точности» для моделей вознаграждения, они предупреждали, что модельную оценку следует использовать главным образом в качестве руководства по выбору моделей, которые лучше всего подходят с потребностями бизнеса.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link