Назад к списку

Microsoft: ИИ не готов работать самостоятельно — ошибки накапливаются

hashtelegraph.com 18 Май 2026 09:37, UTC

Исследователи Microsoft выяснили, что ИИ пока не готов заменить людей на работе — по крайней мере там, где требуется длительная самостоятельная работа с документами. Соответствующая работа была опубликована 17 апреля 2026 года, а 15 мая авторы дополнили выводы уточняющей записью в официальном блоге.

В чём суть

Команда протестировала 19 моделей ИИ, включая Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, на задачах из 52 профессиональных областей — от программирования и бухгалтерского учёта до кристаллографии и нотной записи. Модели последовательно редактировали документы без промежуточной проверки человеком — именно так, как это происходит при реальном делегировании рутинной офисной работы.

Результат оказался неутешительным: даже лучшие модели в среднем искажали около 25% содержания документов после 20 последовательных шагов. Средний показатель по всей выборке достиг 50%.

Ошибки накапливаются

Проблема не в разовых сбоях, а в накоплении: чем сложнее задача, чем длиннее цепочка действий и чем больше объём документа — тем хуже итоговый результат. Ошибки при этом незаметны: они не бросаются в глаза, но постепенно искажают смысл.

Единственным исключением оказалось программирование на Python: большинство моделей сохраняли точность выше 98% даже после 20 итераций. Авторы связывают это с формальной структурой кода, которая оставляет меньше пространства для дрейфа.

Вывод исследователей

Филипп Лабан (Philippe Laban), Тобиас Шнабель (Tobias Schnabel) и Дженнифер Невилль (Jennifer Neville) прямо указывают: текущие языковые модели недостаточно надёжны для длительной автономной работы. В уточняющем посте они оговариваются, что на практике такие эффекты смягчаются регулярным контролем со стороны человека — но именно его отсутствие и делает проблему актуальной.

Исследование фиксирует конкретное ограничение: ИИ справляется с отдельными задачами, но при длительной самостоятельной работе начинает портить то, что ему доверили. Репозиторий с методологией открыт для всех.

Мнение ИИ

Исторический контекст подсказывает любопытную параллель: первые промышленные роботы в 1970-х тоже «дрейфовали» при длительной работе — накапливали механические погрешности, которые делали сборочную линию непредсказуемой. Решением стала не замена роботов людьми, а встроенная калибровка через контрольные точки. Нынешняя ситуация с языковыми моделями воспроизводит ту же логику. Примечательно, что индустрия уже фиксирует практические последствия подобного дрейфа: реальный инцидент с ИИ-агентом, ошибочно отправившим $441 000 из-за единственной опечатки, — наглядная иллюстрация того, что ошибки не остаются внутри документа.

hashtelegraph.com