DeepSeek R1-0528 прибывает в мощную проблему с открытым исходным кодом с Openai O3 и Google Gemini 2.5 Pro


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Кит вернулся.

После первоначального выпуска его успешного рассуждения с открытым исходным кодом AI Model R1, китайской фирмы Deepseek Spinoff из ранее только местно-известной в гонконгской компании с высоким содержанием капитала, выпуская модель глубокого проекта с глубоким проектом с судебным иском Deep O3 и Google Gemini 2.5 из-за

Это обновление предназначено для того, чтобы обеспечить более высокую производительность по сложным рассуждениям по математике, науке, бизнесу и программированию, а также улучшенные функции для разработчиков и исследователей.

Как и его предшественник, DeepSeek-R1-0528 доступен по лицензии и лицензии на Open MIT, поддерживая коммерческое использование и позволяет разработчикам устанавливать модель в соответствии с их потребностями.

Веса модели с открытым исходным кодом доступны через лицо сообщества обмена AI, и для тех, кто находится на местном или интегрированном API Deepseek, предоставлена ​​подробная документация.

Существующие пользователи DeepSeek API автоматически будут обновлены свои модели выводов до R1-0528 без дополнительных затрат. Текущая стоимость API DeepSeek

Для тех, кто хочет управлять моделью локально, DeepSeek выпустила подробные инструкции по своему депозиту GitHub. Компания также поощряет сообщество давать отзывы и вопросы через свою услугу.

Отдельные пользователи могут попробовать его бесплатно через веб -сайт DeepSeek здесь, хотя вам нужно будет предоставить номер телефона или учетную запись Google для входа.

Улучшение рассуждений и справочной деятельности

Ядром обновления является значительное улучшение в способности модели справляться с сложными аргументированными задачами.

DeepSeek объясняет в своей новой модельной карте на Huggingface, что эти улучшения связаны с использованием повышенных компьютерных ресурсов и применения алгоритмических оптимизаций в пост-тренировке. Этот подход привел к замечательным улучшениям благодаря различным ссылкам.

Например, в тесте AIME 2025 точность DeepSeek-R1-0528 подскочила с 70% до 87,5%, что указывает на более глубокие процессы рассуждений, которые в настоящее время в среднем 23 000 токенов за вопрос по сравнению с 12 000 в предыдущей версии.

Кодирующая активность также увидела ускорение, с точностью в базе данных LiveCodeBench, которая увеличилась с 63,5% до 73,3%. О требовательном «последнем исследовании человечества» деятельность более чем удвоилось, достигнув 17,7% от 8,5%.

Эти достижения приближают DeepSeek-R1-0528 к производительности установленных моделей, таких как O3 и Gemini 2.5 Pro Openai, в соответствии с внутренними оценками этих моделей или имеют тарифные границы и/или требуют оплачиваемых подписок для доступа.

UX обновления и новые функции

Помимо улучшений производительности, DeepSeek-R1-0528 представляет несколько новых функций, направленных на улучшение пользовательского опыта.

Обновление добавляет поддержку для выявления JSON и функциональных вызовов, функций, которые должны облегчить разработчикам интеграцию возможностей модели в свои приложения и рабочие процессы.

Фронтальные возможности также были уточнены, и Deepseek говорит, что эти изменения создадут более мягкое, более эффективное взаимодействие для пользователей.

Кроме того, скорость галлюцинации модели была снижена, что способствует более надежному и последовательному выходу.

Одним из заметных обновлений является введение систематических обещаний. В отличие от предыдущей версии, которая требовала особого токена в начале вывода для активации «мышления», это обновление устраняет эту потребность, упрощая развертывание для разработчиков.

Меньшие варианты для тех, у кого более ограниченные компьютерные бюджеты

Наряду с этим изданием, Deepseek переосмыслил свои рассуждения о мышлении цепей в меньший вариант, Deepseek-R1-0528-Qwen3-8b, что должно помочь этим корпоративным лицам, принимающим решения и разработчикам, у которых нет оборудования, необходимого для выполнения полного

Говорят, что эта дистиллированная версия достигает наиболее современной производительности среди моделей с открытым исходным кодом, таких как AIME 2024, превышая QWEN3-8B ​​на 10% и соответствует мышлению QWEN3-235B.

Согласно Modal, эксплуатационные модели на 8 миллиардов параметра на крупных языковых языках (LLMS) в полуоперации (FP16) требуют около 16 ГБ памяти графического процессора, что соответствует около 2 ГБ на миллиарды параметров.

Следовательно, единого высокого графического процессора с не менее 16 ГБ VRAM, такого как NVIDIA RTX 3090 или 4090, достаточно для работы 8B LLM с точностью FP16. Для дополнительных количественных моделей можно использовать графические процессоры с 8-12 ГБ VRAM, такие как RTX 3060.

DeepSeek считает, что эта дистиллированная модель будет полезна для академических исследований и промышленных приложений, требующих более масштабных моделей.

Первоначальные разработчики ИИ и влиятельные реакции

Обновление уже привлекло внимание и похвалу со стороны разработчиков и энтузиастов в социальных сетях.

Haider также “@slow_developer”, разделенный на X, этот Deepseek-R1-0528 “просто невероятен при кодировании”, описывая, как он сгенерировал чистый код и рабочие тесты для задачи системы оценки слов, как идеально в первой попытке. По его словам, только O3 ранее смог соответствовать этой деятельности.

Тем временем Лисан Аль Гайб опубликовал, что «DeepSeek стремится к King: O3 и Gemini 2.5 Pro», отражая согласие на то, что новое обновление приближается к модели Deepseek к этим лучшим исполнителям.

Еще один ИИ News и известный влиятельный, пухлый, прокомментировали, что «Deepseek приготовлен!» и подчеркнул, как новая версия почти такая же с O3 и Gemini 2.5 Pro.

Пухлый даже предположил, что последнее обновление R1 может указывать на то, что Deepseek готовится выпустить свою долгожданную и предполагаемую модель «R2» в ближайшее время.

С нетерпением жду

Выпуск DeepSeek-R1-0528 подчеркивает приверженность DeepSeek для предоставления высокопоставленных моделей с открытым исходным кодом, которые определяют приоритеты рассуждения и удобство использования. Объединяя измеримые эталонные выгоды с практическими функциями и лицензионной лицензией, DeepSeek-R1-0528 позиционируется в качестве ценного инструмента для разработчиков, исследователей и энтузиастов, стремящихся использовать новейшие навыки языковой модели.

Сообщите мне, если вы хотите добавить больше цитат, отрегулировать тон дальше или выделить больше элементов!


Source link
Scroll to Top