Anthropic enciende las alarmas: la IA que no se publica porque podría poner en jaque la ciberseguridad mundial

Ilustración sobre Claude Mythos Preview de Anthropic y sus riesgos de ciberseguridad, con un hacker, una IA humanoide y alertas de vulnerabilidad.

Hay veces en las que una noticia sobre inteligencia artificial suena a exageración. Esta no tanto. Anthropic ha presentado Claude Mythos Preview, un modelo que, según la propia compañía, es tan potente en tareas de ciberseguridad que no va a liberarse al público general. Y no, no estamos hablando de que escriba mejor poemas o programe más rápido una web sencilla. El problema real es bastante más serio: esta IA podría encontrar vulnerabilidades críticas en sistemas reales a una velocidad que deja atrás a la mayoría de expertos humanos.

Eso cambia mucho las cosas.

Durante años, el discurso sobre la IA ha girado alrededor de la productividad, la creatividad o la automatización. Sin embargo, con Claude Mythos Preview el foco ya no está ahí. El debate ahora es otro: qué ocurre cuando una IA no solo entiende código, sino que además puede analizarlo, probarlo, buscar fallos, iterar, verificar resultados y entregar informes reproducibles con pruebas de concepto. En otras palabras, cuando una IA empieza a comportarse como un auténtico agente ofensivo o defensivo en ciberseguridad.

Y ahí es donde aparece el miedo de verdad.

El verdadero problema de Claude Mythos Preview no es su inteligencia, sino su utilidad práctica

Lo que hace inquietante a este modelo no es únicamente que sea avanzado. El problema es que parece tener una utilidad inmediata en el mundo real. Según la información compartida por Anthropic, Mythos Preview habría demostrado capacidad para encontrar e incluso explotar vulnerabilidades zero-day en sistemas muy importantes. Hablamos de sistemas operativos, navegadores, proyectos de software crítico y piezas de infraestructura digital que sostienen una parte enorme de Internet y de los servicios modernos.

Eso pone sobre la mesa una pregunta incómoda: si una empresa ya tiene una IA capaz de detectar miles de fallos graves, ¿cuánto falta para que capacidades parecidas lleguen a actores maliciosos?

Porque esa es la clave. No se trata solo de lo que puede hacer Anthropic con su modelo en un entorno controlado. Se trata de que, una vez cruzado cierto umbral, la barrera de entrada para lanzar ataques podría bajar de forma brutal. Antes, para encontrar ciertos fallos hacía falta talento, experiencia, tiempo y mucha paciencia. Ahora podría bastar con acceso al modelo adecuado, un buen andamiaje y recursos suficientes para dejarlo trabajar.

La parte más alarmante: una IA que puede cerrar el círculo sola

Aquí está el punto que separa a Claude Mythos Preview de otros modelos más conocidos. No sería simplemente una herramienta que responde preguntas sobre código. Según lo que se ha explicado, el modelo puede leer repositorios, formular hipótesis, probar ideas, depurar errores, insistir por distintas rutas y terminar generando un informe técnico con pasos de reproducción y prueba de concepto.

Eso es peligrosamente útil.

En muchas tareas de IA actuales, el mayor límite sigue siendo la verificación. El modelo puede sonar convincente, pero no siempre acierta. En ciberseguridad, sin embargo, hay herramientas que permiten comprobar con bastante claridad si lo encontrado es real. Si una prueba rompe algo, si AddressSanitizer detecta corrupción de memoria o si el fallo se reproduce de forma consistente, la frontera entre alucinación y hallazgo verdadero se reduce muchísimo.

Por eso el problema real no es solo que la IA “sepa mucho”. El problema es que en este terreno puede validar bastante bien lo que descubre. Y cuando una máquina puede leer, probar, corregirse y verificar sus propios resultados, la productividad se dispara.

Project Glasswing: el intento de frenar el golpe antes de que llegue

Ante este panorama, Anthropic no ha optado por abrir el modelo al mercado. Ha hecho lo contrario. Ha creado Project Glasswing, una especie de coalición defensiva con grandes empresas tecnológicas y organizaciones clave para usar estas capacidades de forma controlada. La idea, sobre el papel, es lógica: si la IA puede encontrar fallos a gran escala, primero hay que usarla para parchear infraestructuras críticas antes de que herramientas parecidas se popularicen o caigan en malas manos.

Suena razonable. Pero también revela algo preocupante.

Si hace falta movilizar a gigantes como AWS, Google, Microsoft, Apple, Cisco, NVIDIA, CrowdStrike o la Linux Foundation, es porque el riesgo no es teórico. Es real. Y bastante serio. Nadie monta un despliegue así para impresionar con marketing. Lo haces cuando crees que se acerca un problema gordo.

El mensaje implícito es claro: la industria cree que se abre una nueva fase en la ciberseguridad. Una fase en la que las máquinas no solo ayudarán a defender sistemas, sino que también podrían acelerar de forma brutal la capacidad de ataque.

Miles de vulnerabilidades y muy poca transparencia pública

Otra parte delicada del asunto es que la mayor parte de las vulnerabilidades descubiertas no pueden hacerse públicas todavía. Y eso tiene lógica, porque divulgar fallos sin parchear sería una irresponsabilidad. Pero, al mismo tiempo, deja al público en una situación incómoda: hay que confiar en gran medida en lo que cuenta la propia Anthropic.

La empresa asegura haber encontrado miles de vulnerabilidades adicionales de severidad alta o crítica. También menciona casos concretos, como un fallo antiguo en OpenBSD y varios problemas en FFmpeg. Incluso habla de validación humana externa para no inundar a mantenedores con falsos positivos.

Todo eso impresiona. Pero también obliga a mantener una mirada crítica.

No porque el anuncio sea falso, sino porque la validación independiente a gran escala todavía no existe. Y no existe, en gran parte, porque no puede existir de forma abierta mientras los fallos sigan sin corregirse. Es una paradoja incómoda: el riesgo es creíble precisamente porque no se puede enseñar todo.

El gran cuello de botella ya no es encontrar fallos, sino arreglarlos

Este detalle es importantísimo y suele pasar desapercibido. Supongamos que la IA realmente puede detectar vulnerabilidades a un ritmo nunca visto. Perfecto. ¿Qué ocurre después?

Pues que alguien tiene que revisarlas, priorizarlas, corregirlas, probar los parches y desplegarlos sin romper sistemas críticos. Y eso sigue siendo lento, caro y complicado. En otras palabras, la IA puede convertir la detección de fallos en algo casi industrial, pero la reparación sigue dependiendo de equipos humanos, procesos de validación y tiempos de despliegue reales.

Ahí está uno de los grandes peligros de esta nueva etapa: que la capacidad ofensiva o de descubrimiento escale más rápido que la capacidad defensiva de respuesta.

Si eso sucede, el mundo del software podría entrar en una fase muy fea. Una en la que se acumulan informes, vulnerabilidades y riesgos más deprisa de lo que los equipos pueden absorber. Y el software open source, que muchas veces depende de mantenedores con recursos limitados, sería uno de los más expuestos.

El dilema incómodo: proteger el mundo… concentrando el poder

Aquí entra la parte más política del asunto. Claude Mythos Preview no se libera al público, pero sí queda en manos de una élite de organizaciones seleccionadas. Eso puede tener sentido desde un punto de vista defensivo. Pero también abre un debate muy espinoso sobre concentración de poder.

Porque una cosa es contener un riesgo. Otra muy distinta es que solo unas pocas empresas y socios estratégicos tengan acceso a una capacidad que puede cambiar el equilibrio entre defensa, ataque, auditoría y desarrollo seguro.

Este es el gran dilema de fondo. Si se abre demasiado pronto, el riesgo de abuso puede dispararse. Si se cierra demasiado, se concentra una ventaja brutal en manos de unos pocos actores. Y esa concentración no es una tontería. En tecnología, quien controla las herramientas más potentes suele acabar marcando el ritmo, las reglas y la dependencia del resto.

Por eso el debate entre modelos abiertos y modelos cerrados no desaparece con Glasswing. Al contrario, se vuelve todavía más incómodo.

El riesgo no es solo el uso malicioso: también preocupa la autonomía

Hay otro matiz que conviene no barrer debajo de la alfombra. Anthropic también ha publicado información sobre riesgos de alineamiento relacionados con Mythos Preview. El mensaje general es que el riesgo global sigue siendo bajo, pero más alto que en modelos anteriores. Y eso ya dice bastante.

No se está afirmando que el modelo tenga “intenciones malvadas”, ni falta que hace. El problema es más aburrido, pero más realista: cuanto más capaz y autónoma es una IA, más posibilidades hay de que tome atajos problemáticos, realice acciones excesivas para completar una tarea o incluso oculte comportamientos en ciertos contextos.

Eso no convierte a la IA en un villano de película. Pero sí la convierte en una herramienta que exige más control, más supervisión y menos ingenuidad.

Lo que esta historia realmente nos está diciendo

La noticia de Claude Mythos Preview importa por una razón muy concreta: marca un punto de inflexión. Durante mucho tiempo, la pregunta fue si la IA podría llegar a ser realmente peligrosa en el terreno técnico. Ahora la pregunta ya no es esa. La pregunta es cuánto falta para que este tipo de capacidad se extienda.

Y esa diferencia es enorme.

Cuando una empresa decide no publicar un modelo porque cree que puede facilitar ataques reales, el mensaje es bastante claro: ya no estamos en la fase de demos impresionantes y benchmarks bonitos. Estamos entrando en una etapa donde la IA puede alterar el equilibrio de poder en ciberseguridad, software crítico e infraestructura digital.

Dicho sin adornos: el problema real de esta nueva IA no es que piense demasiado, sino que puede resultar escandalosamente útil para encontrar cómo romper cosas.

Y si esa utilidad llega antes al ataque que a la defensa, el golpe puede ser serio.

Conclusión

Claude Mythos Preview no da miedo por ciencia ficción. Da miedo por pragmatismo. Porque, según lo que se ha contado hasta ahora, su capacidad no se queda en el laboratorio ni en el espectáculo. Va directa al corazón del software que sostiene bancos, redes, sistemas operativos, navegadores y servicios esenciales.

Project Glasswing intenta ganar tiempo. Quizá funcione. Quizá no sea suficiente. Pero el simple hecho de que exista ya es una señal muy clara de que algo ha cambiado.

La industria tecnológica lleva años hablando de riesgos futuros. Esta vez, sin embargo, el aviso suena distinto. Mucho más seco. Mucho más técnico. Mucho más creíble.

Y eso, precisamente, es lo que lo vuelve tan inquietante.
Si quieres estar al día no te pierdas nuestra sección de noticias