Anthropic Mejora Claude 3.5 Sonet y Presenta una API Innovadora
Anthropic ha lanzado una versión revisada de su modelo de lenguaje Claude 3.5 Sonet. A pesar de mantener el mismo nombre, esta versión presenta mejoras notables en rendimiento, superando a su predecesor e incluso a GPT-4 en algunas pruebas de referencia.
Se especula que este modelo mejorado podría ser el resultado de un entrenamiento fallido de Claude 3.5 Opus, el modelo más grande de Anthropic. La compañía ha retirado de su sitio web toda mención a Opus, lo que alimenta la hipótesis de que el desarrollo de Opus 3.5 se ha abandonado, posiblemente para enfocarse en un modelo aún más potente, Claude 4.
Mejoras en el Rendimiento de Claude 3.5 Sonet
Las mejoras en el rendimiento de Claude 3.5 Sonet son evidentes en pruebas como MMLU y GPQA:
- En MMLU, Claude 3.5 Sonet alcanza un 78%, superando por tres puntos a la versión anterior.
- En GPQA, una prueba que utiliza preguntas de doctorado, Claude 3.5 Sonet supera a GPT-4 e incluso a Claude 3.0 Opus.
Sorprendentemente, Claude 3.5 Sonet también ha superado a O1, el modelo de OpenAI que «piensa» antes de responder, en pruebas de codificación. Este logro es notable, ya que Claude 3.5 Sonet no utiliza un proceso de pensamiento similar.
Mejoras en Codificación y Evaluaciones de Uso de Herramientas
Claude 3.5 Sonet muestra una mejora notable en tareas de codificación y uso de herramientas. En evaluaciones como SWE-bench Verified y TAU-bench, el modelo ha demostrado un aumento considerable en sus capacidades, alcanzando un 49% en codificación y un 69,2% en tareas de uso de herramientas en dominios específicos, superando así a todos los modelos disponibles públicamente. Empresas como GitLab han reportado una mejora de hasta un 10% en tareas de razonamiento durante el desarrollo de software, destacando la capacidad del modelo para realizar procesos complejos sin aumentar la latencia.
API Innovadora: Uso de la Computadora
Además de la versión mejorada de Sonet, Anthropic ha lanzado una API en fase beta que permite a Claude controlar la computadora del usuario. Esta API innovadora, llamada «Computer Use», funciona mediante un bucle de capturas de pantalla: Claude toma una captura de la pantalla, la analiza para determinar la acción a realizar (clics, escritura, etc.) y luego repite el proceso con la nueva captura de pantalla. Esta capacidad permite a Claude usar herramientas como editores de texto, navegadores de internet y terminales para realizar tareas complejas, como llenar formularios, depurar código y automatizar procesos repetitivos.
Aunque esta tecnología es aún incipiente y puede ser propensa a errores, tiene un gran potencial para automatizar tareas en la computadora. Durante las pruebas, se observó que Claude tuvo dificultades con acciones como el desplazamiento y el zoom, e incluso interrumpió grabaciones de pantalla y realizó búsquedas aleatorias sin razón aparente. A pesar de estos desafíos, empresas como Asana, Canva y DoorDash ya están explorando su potencial para optimizar sus flujos de trabajo.
Disponibilidad y Seguridad
La API «Computer Use» aún no se encuentra disponible como una aplicación tradicional. Su instalación requiere conocimientos de programación y el uso de librerías específicas, y está disponible a través de Amazon Bedrock, Google Cloud’s Vertex AI y la API de Anthropic. La compañía ha enfatizado la seguridad de esta tecnología, desarrollando clasificadores que detectan el uso inapropiado y mitigan riesgos como el spam o la desinformación. Se espera que la capacidad de uso de computadoras mejore rápidamente en los próximos meses, lo que podría hacer de esta API una herramienta poderosa para desarrolladores y usuarios.
A pesar de sus limitaciones actuales, la API «Computer Use» representa un paso adelante en la interacción entre la IA y las computadoras, y es probable que veamos avances significativos en su velocidad y eficiencia en un futuro cercano.