Meta* FAIR представила VL-JEPA — первую vision-language модель, которая не генерирует токены, а предсказывает смысл в абстрактном пространстве.
Это развитие линии JEPA, которую ЛеКун продвигает как альтернативу генеративному подходу. Сначала был V-JEPA для видео (понимание физики мира), затем LeJEPA (теоретическое обоснование).
Теперь — полноценная мультимодальная модель.
Вместо того, чтобы предсказывать следующий токен как GPT/Claude, VL-JEPA предсказывает эмбеддинг — «смысл» ответа. Декодер в текст вызывается только когда нужно показать результат человеку.
Результаты:
- 1.6млрд параметров конкурирует с 72B Qwen-VL на задаче понимания действий
- На 50% меньше обучаемых параметров при лучшем качестве в контролируемом сравнении
- Декодирование в ~3 раза эффективнее за счёт selective decoding
- Одна модель решает classification, retrieval и VQA без изменения архитектуры.
Почему это важно?Генеративные VLM тратят ресурсы на моделирование поверхностных вариаций текста. VL-JEPA работает на уровне семантики, что даёт выигрыш в эффективности и скорости. Особенно важно для real-time приложений: робототехника, AR-очки, стриминг видео.
Авторы говорят, что это не замена VLM для задач рассуждения, использования инструментов и агентного поведения — там генеративные модели пока лидируют.
*запрещенная организация в России.