- Компания представила новый бенчмарк для тестирования ИИ в «экономически значимых средах».
- Лучший результат показала Claude Opus 4.6 с «наградой за обнаружение» $37 824.
- Инструмент создан совместно с Paradigm и OtterSec.
Компания OpenAI объявила о запуске EVMbench — платформы для оценки эффективности ИИ-агентов при работе с уязвимостями смарт-контрактов. Проект реализован в сотрудничестве с инвестиционной компанией Paradigm и фирмой по безопасности OtterSec.
Бенчмарк основан на 120 уязвимостях, отобранных из 40 аудитов смарт-контрактов. Большинство из них выявили в рамках конкурсов с открытым исходным кодом.
Оценка ИИ в экономически значимых средах
В OpenAI отметили, что по мере роста внедрения ИИ-агентов становится критически важным измерять их производительность в средах, где на кону находятся реальные средства.
«Смарт-контракты регулярно обеспечивают безопасность криптоактивов с открытым исходным кодом на сумму более $100 млрд. По мере того как ИИ-агенты совершенствуются в чтении, написании и выполнении кода, становится все более важным измерять их возможности в экономически значимых средах», — заявили в компании.
Представители компании также считают, что необходимо поощрять использование систем ИИ в целях защиты для аудита и усиления развернутых контрактов.
Как отметили разработчики бенчмарка, развитие технологий на базе искусственного интеллекта может повлиять как на злоумышленников, так и на защитников. Они уверены, что возможности ИИ необходимо использовать для противодействия преступной деятельности.
Кроме того, компания также ожидает роста платежей в стейблкоинах, совершаемых агентами. Это свидетельствует о том, что спрос на системы безопасности будет повышаться, считают в OpenAI.
Запуск EVMbench происходит на фоне роста потерь в отрасли. В 2025 году злоумышленники похитили криптовалюту на $4 млрд, что превышает показатель предыдущих 12 месяцев.
В OpenAI рассчитывают, что новый стандарт позволит отслеживать прогресс ИИ в выявлении и устранении уязвимостей в масштабах всей индустрии.
Напомним, мы писали, что сгенерированный Claude код стал причиной взлома протокола Moonwell почти на $2 млн.