DeepSeek, китайский Unicorn AI, выпустил обновленную версию своей модели рассуждений R1 под названием Deepseek-R1-0528. Этот релиз расширяет возможности модели в области математики, программирования и общих логических рассуждений, позиционируя ее как грозную альтернативу открытым исходным кодам ведущие модели, такие как Operai O3 и Google Gemini 2.5 Pro.
Технические улучшения
Обновление R1-0528 вносит значительные улучшения в глубине рассуждения и точности вывода. Примечательно, что производительность модели по математике AIME 2025 увеличилась с 70% до 87,5%, что отражает более глубокий процесс рассуждений, который в среднем составляет 23 000 токенов за вопрос, по сравнению с 12 000 в предыдущей версии. Это улучшение объясняется увеличением вычислительных ресурсов и алгоритмической оптимизации, применяемых во время после тренировки.
В дополнение к математическим рассуждениям модель показала улучшенную производительность в задачах генерации кода. Согласно критериям Livecodebench, R1-0528 занимает чуть ниже моделей Openai’s O4 Mini и O3, опередив Xai’s Grok 3 Mini и QWEN 3 Alibaba в задачах генерации кода.
Веса модели с открытым исходным кодом
DeepSeek продолжает свою приверженность ИИ с открытым исходным кодом и открытым весом, выпустив R1-0528 по лицензии MIT, позволяя разработчикам свободно изменять и развернуть модель. Вес модели доступны на обнимающемся лице, а подробная документация предоставляется для локального развертывания и интеграции API. Этот подход контрастирует с запатентованной природой многих ведущих моделей ИИ, способствуя прозрачности и доступности в разработке ИИ.
Дистиллированная модель для легкого развертывания
Признавая необходимость более доступных решений для ИИ, DeepSeek также выпустил дистиллированную версию R1-0528, названную Deepseek-R1-0528-QWEN3-8B. Эта модель, настраиваемая из QWEN3-8B от Alibaba с использованием текста, сгенерированного R1-0528, достигает современной производительности среди моделей с открытым исходным кодом на эталон AIME 2024. Он предназначен для эффективной работы на одном графическом процессоре, что делает расширенные возможности ИИ более доступными для разработчиков с ограниченными вычислительными ресурсами.

Цензура соображения
В то время как достижения DeepSeek в ИИ заслуживают внимания, было отмечено модель R1-0528, наблюдается более строгая модерация содержания по сравнению с его предшественниками. Независимое тестирование показало, что модель избегает или предоставляет ограниченные ответы на политически чувствительные темы, такие как протесты площади Тяньаньмэнь и статус Тайваня, согласуясь с китайскими правилами, которые обязывают модели ИИ придерживаться ограничений на содержание.
Вот следов рассуждений по вопросу о лагерях для интернирования – опять же, упоминающего Сяньцзян, и довольно четко обоснование о том, почему это не соблюдать. pic.twitter.com/ooewmf23ty
– xlr8harder (@xlr8harder) 29 мая 2025 года
Глобальные последствия
Выпуск R1-0528 подчеркивает растущее влияние Китая в секторе искусственного интеллекта, бросая вызов доминированию американских компаний. Способность DeepSeek разрабатывать конкурентные модели ИИ за долю от стоимости их западных коллег вызвало ответы со стороны таких компаний, как Openai, которые выразили обеспокоенность по поводу того, что эти модели будут манипулировать этими моделями. Эта разработка подчеркивает изменяющуюся динамику в глобальной разработке ИИ и растущую важность моделей с открытым исходным кодом в стимулировании инноваций и конкуренции.
Заключение
Модель DeepSeek R1-0528 представляет собой значительный прогресс в области искусственного интеллекта с открытым исходным кодом, предлагая расширенные возможности рассуждений и доступность для разработчиков. Предоставляя как полномасштабную модель, так и дистиллированную версию, подходящую для развертывания с одним GPU, DeepSeek делает успехи в демократизации технологии искусственного интеллекта. Тем не менее, приверженность модели к политике модерации контента отражает сложное взаимодействие между технологическим прогрессом и соответствием нормативным требованиям. Поскольку ландшафт ИИ продолжает развиваться, события Deepseek, вероятно, будут играть ключевую роль в формировании будущего искусственного интеллекта с открытым исходным кодом.
Проверьте вес с открытым исходным кодом и Попробуйте сейчасПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
