La empresa de seguridad blockchain OpenZeppelin afirma haber encontrado fallos metodológicos y contaminación de datos en su auditoría del nuevo benchmark de inteligencia artificial para la seguridad blockchain de OpenAI, EVMbench.
EVMbench se lanzó a mediados de febrero en colaboración con la empresa de inversión en criptomonedas Paradigm. Se creó para evaluar la capacidad de diferentes modelos de inteligencia artificial para identificar, corregir y explotar vulnerabilidades en los contratos inteligentes.
En una publicación de X el lunes, OpenZeppelin afirmó que acogía con satisfacción la iniciativa, pero que recientemente había decidido someter a EVMbench "al mismo escrutinio" que aplica a todos los protocolos que ayuda a proteger, incluidos los pesos pesados de las finanzas descentralizadas Aave, Lido y Uniswap.
En su auditoría, OpenZeppelin encontró dos problemas clave: contaminación de los datos de entrenamiento y problemas de clasificación relacionados con varias vulnerabilidades de alta gravedad.
"Revisamos el conjunto de datos e identificamos fallos metodológicos y clasificaciones de vulnerabilidades no válidas, incluyendo al menos cuatro problemas etiquetados como de alta gravedad que no son explotables en la práctica", afirmó OpenZeppelin.
El lanzamiento de EVMbench supuso una evaluación de la capacidad teórica de los agentes de IA para explotar las vulnerabilidades de los contratos inteligentes. Claude Open 4.6, de Anthropic, encabezó la lista, seguido de OC-GPT-5.2, de OpenAI, y Gemini 3 Pro, de Google.
Es posible que sea necesario revisar las pruebas de EVMbench
En cuanto a la primera cuestión relacionada con la contaminación de datos, OpenZeppelin afirmó que la capacidad más importante en "la seguridad de la IA es encontrar vulnerabilidades novedosas en el código que el modelo no haya visto antes".
Sin embargo, durante las pruebas de EVMbench con agentes de IA, OpenZeppelin afirmó que todos los agentes de IA que obtuvieron las puntuaciones más altas "probablemente habían estado expuestos a los informes de vulnerabilidad del benchmark durante el preentrenamiento".
Durante las pruebas de EVMbench, se cortó el acceso a Internet a los agentes de IA, lo que significa que no podían simplemente buscar soluciones a los problemas. Sin embargo, el benchmark se basó en vulnerabilidades seleccionadas de 120 auditorías realizadas entre 2024 y mediados de 2025, y los límites de entrenamiento de conocimientos para estos agentes se fijaron generalmente a mediados de 2025.
Por lo tanto, se corría el riesgo de que los agentes de IA ya tuvieran las respuestas a todos los problemas almacenadas en su memoria.
"Aunque esto no permite necesariamente que el modelo identifique el problema de inmediato, reduce la calidad de la prueba. El tamaño limitado del conjunto de datos reduce aún más la superficie de evaluación, lo que hace que estas preocupaciones por la contaminación sean más significativas", afirmó OpenZeppelin.
Por último, OpenZeppelin afirmó que había algunos errores fácticos significativos en el conjunto de datos de EVMbench, argumentando que varias "vulnerabilidades de alta gravedad" no eran válidas.
OpenZeppelin afirmó que había evaluado al menos cuatro vulnerabilidades que EVMbench clasificó como de alto riesgo, pero que en realidad no funcionan. Sin embargo, EVMbench había puntuado correctamente a los agentes de IA por encontrar estas vulnerabilidades supuestamente falsas.
"No se trata de desacuerdos subjetivos sobre la gravedad, sino de hallazgos en los que el exploit descrito no funciona".
En última instancia, OpenZeppelin reiteró que la IA tendrá un impacto significativo en el refuerzo de la seguridad de blockchain, pero destacó la importancia de aplicar la tecnología y probarla adecuadamente para maximizar su potencial.
“La cuestión no es si la IA transformará la seguridad de los contratos inteligentes, porque lo hará. La cuestión es si los datos y los parámetros de referencia que utilizamos para crear y evaluar estas herramientas se ajustan al mismo estándar que los contratos que pretenden proteger.”
Este artículo no contiene consejos ni recomendaciones de inversión. Toda inversión y operación conlleva riesgos, y los lectores deben realizar sus propias investigaciones antes de tomar una decisión. Aunque nos esforzamos por proporcionar información precisa y oportuna, Cointelegraph no garantiza la exactitud, integridad o fiabilidad de la información contenida en este artículo. Este artículo puede contener declaraciones prospectivas que están sujetas a riesgos e incertidumbres. Cointelegraph no se hace responsable de ninguna pérdida o daño que se derive de la confianza depositada en esta información.
es.cointelegraph.com