Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Возникает новая волна агентов браузеров с AI, обещая изменить то, как бизнес взаимодействует с сайтом. Эти агенты могут автономно ориентироваться в веб -сайтах, восстанавливать информацию и даже полные транзакции, но раннее тестирование выявляет значительные недостатки между перспективами и производительностью.
Несмотря на то, что примеры потребителей, предлагаемых новым оператором браузера Openai, таких как заказ пиццы или покупка игровых билетов, захваченные названия, вопрос о том, где находятся основные разработчики и корпоративное использование. «Мы не знаем, каким будет убийца приложений»,-сказал Сэм Виттивину, соучредитель Red Dragon, компании, которая разрабатывает заявки на агент AI. «Я думаю, что будут вещи, которые займут только время в сети, которая вам действительно не нравится». Это включает в себя такие вещи, как поступление в Интернет и поиск самой дешевой цены на продукт или забронируйте лучший жилье в отеле. Скорее всего, он будет использоваться в сочетании с другими инструментами, такими как Deep Research, где компании могут сделать еще более сложные исследования плюс выполнение задач вокруг сайта.
Компании должны тщательно оценить быстро развивающийся ландшафт, потому что устоявшиеся игроки и стартеры делают различные подходы для решения проблемы автономного просмотра.
Ключевые игроки в ландшафте, использующих браузер
Эта область быстро сплотилась как с крупными технологическими компаниями, так и инновационными компаниями:
Оператор и прокси являются наиболее продвинутыми, если он должен быть потребителем и не под стражей. Многие другие, кажется, больше позиционируют себя для разработчика или корпоративного использования. Например, использование браузера, y-комбинентатор, который позволяет пользователям устанавливать модели, используемые с агентом. Это дает вам больше контроля над тем, как работает агент, включая использование модели вашей локальной машины. Но это, безусловно, более вовлечено.
Другие перечисленные выше обеспечивают переменную степень функциональности и взаимодействия с ресурсами локальных машин. Я решил пока не проверять пользовательский интерфейс Bytedance, так как он попросил доступ к более низкому уровню к функциям безопасности и конфиденциальности моей машины (если я его проверю, я обязательно буду использовать вторичный компьютер).
Тестирование выявляет проблемы с рассуждениями
Таким образом, самым простым тестированием является оператор OpenAI и прокси -сервер конвергенции. В нашем тестировании результаты подчеркивали, как навыки рассуждений могут иметь значение больше, чем необработанные функции автоматизации. Оператор был особенно более неправильным.
Например, я попросил агентов найти и суммировать пять самых популярных историй Venturebeat. Это была неоднозначная задача, потому что у VentureBeat нет «самой популярной» секции По ifПолем Оператор боролся с этим. Сначала он попал в бесконечную движущуюся петлю в поисках «самых популярных» историй, требующих ручного вмешательства. В другой попытке он обнаружил трехлетнюю статью под названием «Пять лучших историй недели». Напротив, Proxy доказал лучшую рассуждения, определив пять наиболее заметных историй на домашней странице как практический показатель популярности и дал точные резюме.
Различие стало еще более ясным в реальных задачах. Я попросил агентов зарезервировать резерв в романтическом ресторане на полдень в Напа, штат Калифорния. Оператор подошел к линейному заданию – сначала поиск романтического ресторана, а затем проверил доступность в полдень. Когда таблицы не было доступно, он достиг мертвых. Прокси продемонстрировал более сложные рассуждения, начиная с Opentable, чтобы найти рестораны, которые были романтичными и доступными в желаемое время. Он даже вернулся с немного более лучшим рестораном.
Даже, казалось бы, простые задачи выявили значительные различия. Когда вы ищете «Цена NFC» Yubikey 5C NFC », прокси -сервер быстро обнаружил этот предмет легче, чем оператор.
OpenAI не сильно распространяется на технологии, которые он использует для обучения своего операционного агента, за исключением того, что он обучил свою модель по задачам использования браузера. Сходимость, однако. генерировать много дорогих данных.
Ссылки на данный момент могут быть бесполезными
На бумаге эти инструменты кажутся близко соответствующими. Прокси-сервер конвергенции достигает 88% в ссылке на WebVoyager, которая оценивает агенты веб-сайтов через 643 реальных задач на 15 популярных сайтах, таких как Amazon и Booking.com. Оператор OpenAI рассчитывает 87%, в то время как использование браузера говорит, что он достигает 89%, но только после небольшого изменения кода WebVoyager, он удовлетворил, «для наших потребностей».
Эти эталонные оценки действительно должны быть взяты с зерном соли, так как они могут быть игривыми. Настоящий тест приходит в практическом использовании для реальных случаев. Это очень рано, пространство меняется так быстро, и эти продукты меняются почти ежедневно. Результаты будут больше зависеть от конкретных заданий, которые вы пытаетесь выполнить, и вы можете полагаться вместо этого вибрации, которые вы получаете при использовании различных продуктов.
Корпоративные последствия
Последствия для корпоративной автоматизации являются значительными. Как указывает Виттейн в нашем разговоре с видео подкаста об этом, где мы глубоко погружаемся в это использование браузера, многие компании в настоящее время платят за виртуальные помощники, управляемые реальными людьми, чтобы иметь дело с базовыми задачами по исследованию веб-сайтов и сбору данных. Эти агенты браузера могут кардинально изменить это уравнение.
«Если ИИ захватит это, – отмечает Виттейн, – это будут одни из первых низковешенных плодов людей, потерявших свою работу. Это появится в некоторых из таких видов».
Это может питаться тенденцией автоматизации роботизированных процессов (RPA), когда браузер вводится как еще один инструмент для компаний для автоматизации большего количества задач. И, как упоминалось ранее, более мощными случаями использования будут, когда агент объединил браузер с другими инструментами, включая такие вещи, как Deep Research, где агент, управляемый LLM, использует инструмент поиска плюс Браузер используется для выполнения более сложной работы.
Стоимость -дамика продвигает инновации
Другим ключевым фактором, продвигающим быстрое разработку, является доступность мощных моделей рассуждений с открытым исходным кодом, таких как DeepSeek-R1. Это позволяет компаниям, создающим эти агенты браузера, эффективно конкурировать с более крупными игроками, использующими эти модели, вместо того, чтобы создавать свои собственные.
Ценовое давление уже очевидно. В то время как OpenAI требует доступа к оператору CATGPT Pro -Obon за 200 долларов США, Convergence предлагает ограниченное бесплатное использование (до пяти использования в день) и $ 20/ежемесячный неограниченный план. Эта конкурентная динамика должна ускорить корпоративное усыновление, хотя явные варианты использования все еще появляются.
Проблемы безопасности и интеграции
Несколько препятствий остаются до широкого распространения бизнеса. Некоторые сайты активно блокируют автоматический просмотр, в то время как другие требуют управления CAPTCHA. В то время как OpenAI и Convergence имеют инструменты, которые могут проходить капчас, они позволяют пользователям взять на себя задачу, чтобы заполнить их – вместо того, чтобы делать их напрямую, потому что весь смысл капч состоит в том, чтобы убедиться, что человек находится на другом конце. Такие инструменты, как пользовательский интерфейс Bytedance, просят глубокий доступ в систему, который вызывает проблемы безопасности для развертывания бизнеса.
Кроме того, подход к сотрудничеству веб -сайтов варьируется. OpenAI работал с конкретными партнерами, такими как Instacart, Priceline, Doordash и Etsy, в то время как другие пытаются ориентироваться в любом веб -сайте. Это несоответствие может повлиять на надежность для корпоративных вариантов использования. Конечно, каждый раз, когда агент попадает на веб -сайт, требующий подробностей входа в систему, это замедлит вещи – поскольку агенты дадут вам вещи, чтобы заполнить эти детали.
С нетерпением жду
Для предприятий, оценивающих эти инструменты, основное внимание должно быть сосредоточено на конкретных вариантах использования, когда автономное онлайн -взаимодействие может обеспечить четкую ценность – будь то в исследованиях, обслуживании клиентов или автоматизации процессов. Технология быстро развивается, но успех будет зависеть от совместимых навыков с конкретными потребностями бизнеса.
По мере развития этого пространства ожидайте увидеть больше функций корпоративного фокуса и, возможно, специализированных агентов для конкретных отраслей или задач. Гонка между известными игроками и инновационными стартапами должна вызывать как технический прогресс, так и конкурентоспособную цену, что делает 2025 важный год для принятия корпоративных браузеров.
Для получения более подробной информации об этих тенденциях и результатах испытаний ознакомьтесь с полным видео разговором между Сэмом Виттевином и мной.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.
Source link