Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Каждая модель искусственного интеллекта неизбежно включает буквы, поскольку она превышает своих конкурентов в этом эталонном тесте или в этой оцененной матрице.
Однако эти ссылки часто проверяют общие навыки. Для организаций, которые хотят использовать модели и крупные языковые модельные агенты, труднее оценить, насколько хорошо агент или модель на самом деле понимают их конкретные потребности.
Model Depot обнимаю Face, запустив Tybench, инструмент с открытым исходным кодом, где разработчики и предприятия могут создавать свои собственные ссылки для тестирования производительности модели против их внутренних данных.
Сумук Шашидхар, часть исследовательской группы оценок в Hugging Face, объявил о Yourbench в X. Эта функция предлагает «пользовательский сравнительный анализ и синтетическую генерацию данных из некоторых из ваших документов. Это большой шаг к улучшению как оценки моделей».
Он добавил, что обнимающееся лицо знает, что «для многих случаев, что действительно важно, это то, насколько хорошо модель выполняет вашу конкретную задачу. Вам позволяет вам оценивать модели о том, что важно для вас».
Создание своих собственных оценок
Объятие лица сказали на бумаге, что Yourbench работает, повторяя подмножества массивного справочного понимания многотаскулярного языка (MMLU), используя минимальный исходный текст, достигая этого менее чем за 15 долларов США в общей стоимости вывода, при этом идеально поддержав относительный рейтинг производительности модели ».
Организации должны предварительно обрабатывать свои документы, прежде чем ваше благословение сможет сработать. Это включает в себя три этапа:
- Документальное потребление «нормализовать» форматы файлов.
- Семантическое преследование Ополивайте документы, чтобы выполнить контекстуальные ограничения и сосредоточить внимание модели.
- Резюме документа
Далее идет процесс создания вопросов и ответов, который создает вопросы информации о документах. Здесь пользователь несет выбранный LLM, чтобы увидеть, кто лучше всего отвечает на вопросы.
Hugging face tested your inclination with Deepseek V3 and R1 models, the Qwen models of Alibaba including the Qwen QWEN QwQ, Mistral 311 and Mistral 3.1 Small, Llama 3.1 and Llama 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash and GemM GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 3, GEDMA 33, GEDMA. Хайку.
Шашидхар сказал, что Heging Face также предлагает анализ затрат на модели и обнаружил, что QWEN и Gemini 2.0 Flash «производят огромную ценность для очень низких затрат».
Границы границы
Тем не менее, создание пользовательских ссылок LLM на основе документов затрат на организацию. Творбенч требует много компьютерного питания для работы. Шашидхар сказал в X, что компания «добавляет способность», как быстро они могли.
Huging Face управляет несколькими графическими процессорами и партнерами с такими компаниями, как Google, чтобы использовать свои облачные сервисы для задач вывода. VentureBeat расширил лицо об использовании компьютера.
Брингеракинг не идеален
Контрольные показатели и другие методы оценки дают пользователям представление о том, насколько хорошо работают модели, но они не совсем понимают, как модели будут работать ежедневно.
Некоторые даже выразили скептицизм, что ссылки на попытки показывают границы моделей и могут привести к ложным выводам об их безопасности и производительности. Исследование также предупредило, что сравнительные агенты могут быть «ошибочными».
Тем не менее, предприятия не могут избежать оценки моделей сейчас, когда на рынке есть много вариантов, и технологические лидеры оправдывают растущую стоимость использования моделей ИИ. Это привело к различным методам тестирования производительности и надежности модели.
Google DeepMind представила заземления фактов, что проверяет возможность генерирования фактических точных ответов на основе информации о документах. Некоторые исследователи Йельского университета и Tsinghua разработали ссылки на кодирование для самообслуживания для руководства предприятиями, для которых они кодируют для них LLMS.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link