Openai -Updates O3, что делает его Chatgpt Pro -obono за 200 месяцев.


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Это была отличная неделя для объявлений искусственного интеллекта после событий Microsoft, Google и Antropical. Но Openai заканчивает вещи с собственными новостями. И нет, мы не просто говорим о его приобретении проектной команды Джони Айв, чтобы возглавить новое оборудование «что -то» в Openai.

Сегодня компания обновила своего оператора автономного просмотра и управления курсором в CATGPT с использованием предыдущей мультимодальной большой языковой модели GPT-4O для более новой и более мощной модели рассуждения O3.

Обновление, выпущенное по всему миру, сегодня, 23 мая 2025 года, доступно в качестве «прогноза исследования» для оплаты подписчиков плана CHATGPT Pro в размере 200 долларов США от OpenAAI.

По сути, это способ Openai, чтобы сказать, что он еще не полностью «песчаный» или совершенный продукт – у него все еще могут быть перегипы и проблемы.

Но с конкурентом Google, предлагающим свой собственный пакет AI -OK на высшем уровне по цене почти 250 долларов регулярно (в настоящее время дисконтируя скидку до 125 долларов за первые три месяца), чтобы получить доступ к его последним мультимодальным Gemini MultiModal, образованию Imagen -Imagine, и голосовой генерации -Video -Generation, внезапно Open -Chatgpt -plan кажется более доступным для сравнения.

Для чего оператор Openai и для чего он полезен?

Оператор впервые дебютировал в январе 2025 года как начальный шаг OpenaI в полуавтономных агентах, в частности, компьютерное использование агентов (CUA). Идея состоит в том, чтобы обойти интерфейс чат -бота в CHATGPT и позволить мощным моделям AI OpenAI начать делать больше действий от имени пользователя.

Таким образом, оператор был разработан, чтобы автономно заметить, щелкнуть, кататься и набрать и набрать для выполнения веб-задач, таких как бронирование резервных копий ужина, списки покупки компиляции или билеты на заказ событий. Эта емкость действия позволяет вам выполнять пользовательские задачи непосредственно через интерфейс браузера, от резервных копий до сбора онлайн -данных.

Для безопасности, конфиденциальности и безопасности оператор не использовал какой -либо существующий браузер на компьютере или Mac пользователя. Вместо этого он работал в виртуальном браузере, доступном с облачным размером, доступным через автономный веб-оператор.chatgpt.com-M, где пользователи могут вводить запросы и наблюдать за агентом для выполнения задач в режиме реального времени.

Он объединил видение, рассуждения и интерактивные навыки, основанные на GPT-4O, отметив новое направление для Openai в реальном ИИ.

Продукт был запущен в качестве исследовательского предварительного просмотра для подписчиков CHATGPT Pro и представил встроенные меры безопасности в качестве использования подтверждений, часов и ограничений на сетевые платформы высокого риска.

Он также был протестирован в корпоративном контексте, включая планирование путешествий и гражданские услуги, демонстрируя свой потенциал как через потребительскую, так и коммерческую среду.

O3 предлагает повышенную точность, структуру и успешные ставки

С этим обновлением OpenAI стремится повысить производительность с помощью нескольких ключевых измерений. Новый оператор на основе O3 демонстрирует улучшение определения и точности во время взаимодействия браузеров.

На практике это означает, что он более склонен выполнять выполнение задач успешно и с меньшей потребностью в коррекции или повторении. Более того, пользователи могут ожидать более четких, более структурированных и более широких ответов.

В сравнительных оценках новая модель показывает особое предпочтительное преимущество перед его предшественником. Исследования человеческих предпочтений показывают, что пользователи предпочитают модель O3 в его стиле, размере и ясности. Это также действует сильно в преподавании и производительности, хотя результаты фактической правильности более сбалансированы между версиями.

Производительность на третьих партийных ссылках отражает эти улучшения. По ссылке Osworld, которая измеряет выполнение задач на основе браузеров, модель O3 набирает 42,9 по сравнению с 38,1 для предыдущей версии.

Тем не менее, OpenAI отмечает, что из -за ограничений на систему автоматической оценки фактическая производительность -Gain может быть ближе к 20 процентам!

На Webarena новая модель достигла 62,9, по сравнению с 48,1. Наиболее драматическое улучшение появляется в ссылке на GAI, где модель O3 набирает 62,2, что широко превышает 12,3 предыдущей модели.

Сравнение задач из стороны в сторону дополнительно иллюстрирует эти достижения. В одном примере, включающем запрос на резервную копию ресторана, новая модель предоставила более четкий и более подробный список доступных резервов, включая местоположения, тарифы и сиденья Michelin, представленные в хорошо форматированной таблице. Предыдущая версия, в то время как в эксплуатации, доставляла меньше информации менее организованным образом, на изображении, включенном в новую o3 телефонов -редакции:

Остается безопасность, а также общие осторожные заметки об использовании конфиденциальных, финансовых транзакций и счетов -аккса –

Модель O3 также наследует меры безопасности, введенные с более ранними версиями, с дальнейшей конфигурацией для его роли в качестве активной системы.

OpenAI интегрировал улучшенную подготовку против вредной задачи -выполнения, уязвимостей быстрого инъекций и ошибок, связанных с использованием намерения.

Оценки показывают, что модель в настоящее время подтверждает 94% чувствительных действий, прежде чем их выполнять, при этом 100% подтверждение в финансовых операциях. Обратная инъекция -Существуемость также снизилась с 23% до 20%.

Примечательно, что мобильный телефон O3 сохраняет тщательный ограничение на любые рискованные сетевые взаимодействия, такие как электронная почта или финансовые платформы, где может потребоваться использование обзора через режим часов или явно отказ от продолжения. Эти меры являются частью доступа к безопасности, который сочетает в себе долговечность модели с реальным мониторингом.

Хотя обновление оператора отмечает техническое улучшение, оно также отражает постоянную приверженность OpenAI к ответственному развертыванию ИИ.

Способность системы выполнять реальные действия вводит новые риски, и команда разработчиков продолжает соответствующим образом совершенствовать свои протоколы безопасности.

Согласно обновленной документации по системной карте O3 Openai, модель остается под порогами мощности высокого риска в таких категориях, как биологическое и химическое злоупотребление, и не имеет врожденной среды кодирования или терминального подхода, что еще больше снижает потенциальные оскорбительные векторы.

Оператор остается предварительным просмотром исследования и доступен только для пользователей CHATGPT Pro. Соответствующая версия оператора API будет по -прежнему основываться на модели GPT 4O, по крайней мере, на данный момент.

Последствия для корпоративных технических решений -руководители

Обновленный оператор значительно улучшит рабочие процессы профессионалов в области искусственного интеллекта, оркестровки, управления данными и ее безопасности.

Для тех, кто строит или поддерживает модели машинного обучения, улучшенная точность модели и структурированные результаты снижают затраты на тестовую проверку и проблемы.

В оркестровых контекстах он предлагает практическое надежное инструмент для автоматизации браузеров на основе сложных трубопроводов.

Инженеры данных могут делегировать ручное онлайн-взаимодействия-как контроль данных и скреже с большей уверенностью, высвобождая время для работы с оптимизацией более высокого уровня.

Между тем, специалисты по безопасности получают более безопасный способ имитировать поведение пользователей в аудиторах и упражнения по случайным ответам благодаря механизмам безопасности модели.

Среди этих дисциплин оператор на основе O3 вводит как способную обновление, так и рамку по смягчению рисков, что делает его практическим дополнением к современному техническому снаряжению.


Source link
Scroll to Top