Anthropic поглотила стартап Vercept, специализирующийся на компьютерном зрении и восприятии интерфейсов, — и это не просто очередная сделка по покупке команды умных ребят. Это заявка на то, чтобы превратить Claude из разговорчивого текстового ассистента в полноценного цифрового работника, способного самостоятельно нажимать кнопки, заполнять формы и ориентироваться в корпоративном программном хаосе без постоянного надзора человека.
До сих пор работа Claude с компьютером выглядела примерно так: модель смотрит на снимок экрана, пытается угадать назначение того или иного элемента и делает следующий шаг. Работает — когда все чисто и предсказуемо. Но реальный корпоративный софт — это не лабораторный стенд. Там всплывающие окна появляются в самый неподходящий момент, панели управления меняются прямо в процессе работы, а разные поставщики программного обеспечения, кажется, соревнуются, чей интерфейс запутает пользователя сильнее. Подход «смотри на снимок экрана и молись» буксовал именно здесь — медленно, затратно и ненадежно.
Основатели Vercept — Киана Эхсани (Kiana Ehsani), Лука Вайс (Luca Weihs) и Росс Гиршик (Ross Girshick) — годами занимались тем, чего Anthropic не хватало: способностью отслеживать состояние приложения во времени, а не воспринимать каждый экран как задачу с нуля. Человек инстинктивно понимает, что программа загружается, процесс завис или появившееся окно изменило контекст. Большинство ИИ-агентов этого не умеют. В Vercept — умели.
Это уже вторая показательная покупка Anthropic за короткое время — до этого компания приобрела Bun, инструмент для запуска ИИ-агентов в рабочих бизнес-системах. Картина складывается: Anthropic методично собирает все необходимые компоненты, чтобы Claude перестал быть просто чат-ботом и превратился в платформу для самостоятельного выполнения задач. OpenAI строит систему Operator, Google демонстрирует агентов, способных одновременно видеть, слышать и действовать в рамках проекта Project Astra — гонка автономных ИИ-агентов идет полным ходом, и контроль над уровнем восприятия интерфейсов становится стратегическим активом.
Экономическая логика сделки прозрачна: большинство корпоративных систем не имеют полноценных программных интерфейсов для внешнего управления, а те, что есть, открывают лишь часть функциональности. Универсальным способом взаимодействия с программой по-прежнему остается сам экранный интерфейс — тот, через который работает человек. ИИ, способный нативно его понимать, делает ненужной дорогостоящую разработку индивидуальных интеграций под каждую систему. Vercept — именно тот кирпич, которого не хватало в этой конструкции.
Мнение ИИ
С точки зрения экономики автоматизации, сделка с Vercept обнажает любопытное противоречие. Расширение возможностей агента логично звучит как путь к снижению его стоимости — больше умеет, меньше ошибается, быстрее справляется. Но на практике все сложнее: чем сложнее задача, тем больше вычислительных ресурсов она потребляет. Уже сейчас использование Claude-агента обходится бизнесу в сумму, сопоставимую с зарплатой штатного сотрудника — при том что агент работает на 10–20% от своих возможностей. Технология восприятия интерфейсов сделает агентов значительно мощнее — но сделает ли она их дешевле?
Ответ на этот вопрос определит, станут ли автономные ИИ-работники массовым явлением или останутся инструментом для крупных корпораций с бюджетами на эксперименты.
hashtelegraph.com