Microsoft выпустила собственную генеративную модель изображений MAI-Image-2 — и она сразу же заняла третье место в мировом рейтинге Arena.ai, уступив лишь моделям Google и OpenAI.
Объявление сделала команда AI Superintelligence. Модель уже доступна в MAI Playground, параллельно идёт поэтапное внедрение в Copilot и Bing Image Creator. API пока открыт только для отдельных корпоративных клиентов, более широкий доступ через Microsoft Foundry появится позже.
Что умеет MAI-Image-2
При разработке команда опросила фотографов, дизайнеров и визуальных художников. Результат — три выраженных преимущества: фотореализм, надёжная генерация текста внутри изображений и детальное построение сложных сцен.
На практике модель действительно впечатляет в работе с естественным освещением, текстурами поверхностей и пространственными отношениями. Она занимает пятое место в рейтинге Arena.ai — Google сохраняет лидерство, — но разрыв оказывается меньше, чем ожидалось. Примечательно, что в ряде тестов MAI-Image-2 обходит GPT-Image по качеству картинки и точности текста, несмотря на то, что OpenAI занимает почетное второе место. Позиция в таблице не всегда отражает реальный результат.

Отдельного внимания заслуживает типографика: модель стабильно справляется с крупными текстовыми блоками, постерами и вывесками — без характерного для большинства конкурентов искажения символов. Тест с китайскими иероглифами показал неполную точность, однако сам факт попытки и частичный успех уже выделяет MAI-Image-2 на общем фоне.
Ограничения, которые сложно игнорировать
Система фильтрации здесь жёстче, чем у Google Imagen и DALL-E. Запрос на мультяшный рисунок паука, преследующего женщину, получил отказ — это рисунок, не фотография. Для иллюстраторов, работающих с напряжёнными сценами или хоррором, такой уровень ограничений становится реальной проблемой.
Производительность тоже лимитирована: после каждой генерации — пауза 30 секунд, после 15 изображений — блокировка на 24 часа. Для разовых экспериментов это терпимо, для рабочего процесса — нет.
Единственный доступный формат — квадрат 1:1. Ни горизонтальной, ни вертикальной ориентации. В 2026 году это ощутимый пробел, особенно для контента в социальных сетях, куда Microsoft явно метит с интеграцией в Copilot. Редактирование изображений, работа с референсами и расширение кадра — всего этого пока нет.
Зачем Microsoft понадобилась собственная модель
Стратегический смысл очевиден. Компания годами платила OpenAI за генерацию изображений в Copilot и Bing Image Creator — и одновременно финансировала Anthropic, главного конкурента OpenAI. Собственная модель снижает зависимость от партнёров, сокращает затраты в масштабе и даёт пространство для итераций без согласования с третьими сторонами.
MAI-Image-2 не обязана превосходить лидеров рынка — ей достаточно быть достаточно хорошей. С технической точки зрения она это условие выполняет. Вопрос в продуктовых решениях: строгие лимиты, ограниченный формат вывода и отсутствие инструментов редактирования пока сдерживают реальный потенциал модели.
Когда Microsoft ослабит эти ограничения и завершит интеграцию в Copilot, MAI-Image-2 может стать серьёзным участником рынка. Сейчас это убедительная техническая база с очевидными точками роста.
Мнение ИИ
С точки зрения машинного анализа данных, жёсткая система фильтрации MAI-Image-2 — не техническое ограничение, а осознанная стратегия. На фоне скандала с Grok от xAI, который в начале 2026 года генерировал тысячи нежелательных изображений в час и спровоцировал расследования регуляторов в нескольких странах, Microsoft сделала противоположный выбор. Строгие фильтры — это страховка от репутационных и юридических рисков для корпорации с многомиллиардными контрактами с государственными структурами.
Интересен и другой аспект: отсутствие форматов, кроме 1:1, и инструментов редактирования фактически блокирует профессиональный рынок — именно тот сегмент, где Adobe Firefly и Midjourney уже закрепились. Microsoft пока выбирает массовый потребительский охват через Copilot, а не конкуренцию с профессиональными инструментами. Вопрос в том, является ли это временным этапом или намеренным позиционированием.
hashtelegraph.com