Назад к списку

OpenAI запустила бенчмарк для ИИ-агентов по поиску уязвимостей в экосистеме Ethereum

incrypted.com 19 Февраль 2026 08:50, UTC

Компания представила новый бенчмарк для тестирования ИИ в «экономически значимых средах».
Лучший результат показала Claude Opus 4.6 с «наградой за обнаружение» $37 824.
Инструмент создан совместно с Paradigm и OtterSec.

Компания OpenAI объявила о запуске EVMbench — платформы для оценки эффективности ИИ-агентов при работе с уязвимостями смарт-контрактов. Проект реализован в сотрудничестве с инвестиционной компанией Paradigm и фирмой по безопасности OtterSec.

Бенчмарк основан на 120 уязвимостях, отобранных из 40 аудитов смарт-контрактов. Большинство из них выявили в рамках конкурсов с открытым исходным кодом.

Сравнение ИИ-моделей по выявлению уязвимостей в смарт-контрактах Ethereum. Данные: OpenAI.

Оценка ИИ в экономически значимых средах

В OpenAI отметили, что по мере роста внедрения ИИ-агентов становится критически важным измерять их производительность в средах, где на кону находятся реальные средства.

«Смарт-контракты регулярно обеспечивают безопасность криптоактивов с открытым исходным кодом на сумму более $100 млрд. По мере того как ИИ-агенты совершенствуются в чтении, написании и выполнении кода, становится все более важным измерять их возможности в экономически значимых средах», — заявили в компании.

Представители компании также считают, что необходимо поощрять использование систем ИИ в целях защиты для аудита и усиления развернутых контрактов.

Как отметили разработчики бенчмарка, развитие технологий на базе искусственного интеллекта может повлиять как на злоумышленников, так и на защитников. Они уверены, что возможности ИИ необходимо использовать для противодействия преступной деятельности.

Кроме того, компания также ожидает роста платежей в стейблкоинах, совершаемых агентами. Это свидетельствует о том, что спрос на системы безопасности будет повышаться, считают в OpenAI.

Запуск EVMbench происходит на фоне роста потерь в отрасли. В 2025 году злоумышленники похитили криптовалюту на $4 млрд, что превышает показатель предыдущих 12 месяцев.

В OpenAI рассчитывают, что новый стандарт позволит отслеживать прогресс ИИ в выявлении и устранении уязвимостей в масштабах всей индустрии.

Напомним, мы писали, что сгенерированный Claude код стал причиной взлома протокола Moonwell почти на $2 млн.

incrypted.com