Claude 3.5 Sonnet puede controlar su computadora

Anthropic ha presentado una importante actualización de sus modelos Claude AI, incluida la nueva función “Uso de computadora”. Los desarrolladores pueden hacer que el Claude 3.5 Sonnet actualizado navegue por aplicaciones de escritorio, mueva cursores, haga clic en botones y escriba texto, imitando esencialmente a una persona que trabaja en su PC.

“En lugar de crear herramientas específicas para ayudar a Claude a completar tareas individuales, le estamos enseñando habilidades informáticas generales, permitiéndole utilizar una amplia gama de herramientas estándar y programas de software diseñados para personas”, escribió la compañía en una publicación de blog.

La API de uso de computadora se puede integrar para traducir mensajes de texto en comandos de computadora, con Anthropic dando ejemplos como “usar datos de mi computadora y en línea para completar este formulario” y “mover el cursor para abrir un navegador web”. Este es el primer modelo de IA del líder en IA que puede navegar por la web.

La actualización funciona analizando capturas de pantalla de lo que el usuario está viendo y luego calcula cuántos píxeles necesita para mover un cursor vertical u horizontalmente para hacer clic en el lugar correcto o realizar otra tarea utilizando el software disponible. Puede abordar hasta cientos de pasos sucesivos para completar un comando, y se autocorregirá y volverá a intentar un paso si encuentra un obstáculo.

La API de uso informático, disponible ahora en versión beta pública, tiene como objetivo en última instancia permitir a los desarrolladores automatizar procesos repetitivos, probar software y realizar tareas abiertas. La plataforma de desarrollo de software Replit ya está explorando su uso para navegar por las interfaces de usuario para evaluar la funcionalidad a medida que se crean aplicaciones para su producto Replit Agent.

“Permitir que las IA interactúen directamente con el software de la computadora de la misma manera que lo hacen las personas desbloqueará una amplia gama de aplicaciones que simplemente no son posibles para la generación actual de asistentes de IA”, escribió Anthropic en una publicación de blog.

El uso de la computadora por parte de Claude todavía es bastante propenso a errores

Anthropic admite que la característica no es perfecta; todavía no puede manejar eficazmente el desplazamiento, el arrastre o el zoom. En una evaluación diseñada para probar su capacidad para reservar vuelos, solo tuvo éxito el 46% de las veces. Pero esta es una mejora con respecto a la iteración anterior que obtuvo una puntuación del 36%.

Debido a que Claude se basa en capturas de pantalla en lugar de una transmisión de video continua, puede perder acciones o notificaciones de corta duración. Los investigadores admiten que, durante una demostración de codificación, dejó lo que estaba haciendo y comenzó a buscar fotografías del Parque Nacional de Yellowstone.

Obtuvo una puntuación del 14,9% en OSWorld, una plataforma para evaluar la capacidad de un modelo para funcionar como lo harían los humanos, para tareas basadas en capturas de pantalla. Esto está muy lejos de la habilidad a nivel humano, que se cree que está entre el 70% y el 75%, pero es casi el doble que el siguiente mejor sistema de IA. Anthropic también espera mejorar esta capacidad con los comentarios de los desarrolladores.

El uso de la computadora tiene algunas características de seguridad que lo acompañan.

Los investigadores de Anthropic dicen que se tomaron una serie de medidas deliberadas que se centraron en minimizar el riesgo potencial asociado con el uso de la computadora. Por razones de privacidad y seguridad, no entrena con los datos enviados por los usuarios, incluidas las capturas de pantalla que procesa, ni puede acceder a Internet durante la capacitación.

Una de las principales vulnerabilidades identificadas son los ataques de inyección rápida, un tipo de ‘jailbreak’ en el que instrucciones maliciosas podrían provocar que la IA se comportara de forma inesperada.

Una investigación del Instituto de Seguridad de IA del Reino Unido encontró que los ataques de jailbreak podrían “permitir un comportamiento coherente y malicioso de agentes de varios pasos” en modelos sin capacidades de uso de computadoras, como GPT-4o. Un estudio independiente encontró que los ataques de jailbreak de IA generativa tienen éxito el 20% de las veces.

Para mitigar el riesgo de inyección rápida en Claude Sonnet 3.5, los equipos de Confianza y Seguridad implementaron sistemas para identificar y prevenir tales ataques, particularmente porque Claude puede interpretar capturas de pantalla que pueden contener contenido dañino.

Además, los desarrolladores previeron la posibilidad de que los usuarios hicieran un mal uso de las habilidades informáticas de Claude. Como resultado, crearon “clasificadores” y sistemas de monitoreo que detectan cuándo podrían estar ocurriendo actividades dañinas, como spam, información errónea o comportamientos fraudulentos. Tampoco puede publicar en las redes sociales ni interactuar con sitios web gubernamentales para evitar amenazas políticas.

Los institutos de seguridad de EE. UU. y el Reino Unido realizaron pruebas conjuntas previas al despliegue, y Claude 3.5 Sonnet permanece en el nivel 2 de seguridad de IA, lo que significa que no plantea riesgos significativos que requieran medidas de seguridad más estrictas que las existentes.

VER: OpenAI y Anthropic Sign llegan a un acuerdo con el Instituto de Seguridad de IA de EE. UU. y entregan modelos fronterizos para realizar pruebas

Claude 3.5 Sonnet es mejor codificando que su predecesor

Además de la versión beta de uso de computadora, Claude 3.5 Sonnet ofrece mejoras significativas en codificación y uso de herramientas, pero al mismo costo y velocidad que su predecesor. El nuevo modelo mejora su rendimiento en SWE-bench Verified, un punto de referencia de codificación, del 33,4% al 49%, superando incluso a modelos de razonamiento como OpenAI o1-preview.

Un número cada vez mayor de empresas está utilizando la IA generativa para codificar. Sin embargo, la tecnología no es perfecta en este ámbito. Se sabe que el código generado por IA provoca interrupciones y los líderes de seguridad están considerando prohibir el uso de la tecnología en el desarrollo de software.

VER: Cuando la IA no da en el blanco: por qué los compradores de tecnología enfrentan fallas en los proyectos

Los usuarios de Claude 3.5 Sonnet han visto las mejoras en acción, según Anthropic. GitLab lo probó para tareas de DevSecOps y descubrió que ofrecía un razonamiento hasta un 10 % más sólido sin latencia adicional. El laboratorio de IA Cognition también informó mejoras en su codificación, planificación y resolución de problemas con respecto a la versión anterior.

Claude 3.5 Sonnet está disponible hoy a través de Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud. Se está implementando una versión sin uso de computadora en las aplicaciones de Claude.

Claude 3.5 Haiku es más barato pero igual de efectivo

Anthropic también lanzó Claude 3.5 Haiku, una versión mejorada del modelo Claude más económico. Haiku ofrece respuestas más rápidas, así como una precisión de instrucción y un uso de herramientas mejorados, lo que lo hace útil para aplicaciones orientadas al usuario y genera experiencias personalizadas a partir de datos.

Haiku iguala el rendimiento del modelo Claude 3 Opus más grande por el mismo costo y velocidad similar de la generación anterior. También supera al Claude 3.5 Sonnet y al GPT-4o originales en SWE-bench Verified, con una puntuación del 40,6%.

Claude 3.5 Haiku se lanzará el próximo mes como un modelo de solo texto. En el futuro será posible introducir imágenes.

El cambio global hacia agentes de IA

La capacidad de uso de computadoras de Claude 3.5 Sonnet coloca el modelo en el ámbito de los agentes de IA, herramientas que pueden realizar tareas complejas de forma autónoma.

“La elección por parte de Anthropic del término ‘uso de computadora’ en lugar de ‘agentes’ hace que esta tecnología sea más accesible para los usuarios habituales”, dijo a TechRepublic en un correo electrónico Yiannis Antoniou, jefe de datos, análisis e inteligencia artificial de la consultora de tecnología Lab49.

Los agentes están reemplazando a los copilotos de IA (herramientas diseñadas para ayudar y brindar sugerencias al usuario en lugar de actuar de forma independiente) como herramientas imprescindibles dentro de las empresas. Según el Financial Times, Microsoft, Workday y Salesforce han colocado recientemente a los agentes en el centro de sus planes de IA.

En septiembre, Salesforce presentó Agentforce, una plataforma para implementar IA generativa en áreas como atención al cliente, servicio, ventas o marketing.

Armand Ruiz, vicepresidente de gestión de productos de IBM para su plataforma de IA, dijo a los delegados en el Festival SXSW en Australia esta semana que el próximo gran salto en IA marcará el comienzo de una “era agente”, donde agentes especializados en IA colaborarán con humanos para impulsar la organización. eficiencias.

“Tenemos un largo camino por recorrer para lograr que la IA nos permita realizar todas estas tareas rutinarias y hacerlo de una manera que sea confiable, y luego hacerlo de una manera que pueda escalarse y luego poder explicarlo. y puedes monitorearlo”, dijo a la multitud. “Pero vamos a llegar allí, y lo haremos más rápido de lo que pensamos”.

Los agentes de IA podrían incluso llegar a eliminar la necesidad de la intervención humana en su propia creación. La semana pasada, Meta dijo que lanzaría un modelo de IA de “evaluador autodidacta” diseñado para evaluar de forma autónoma su propio desempeño y el de otros sistemas de IA, lo que demuestra el potencial de los modelos para aprender de sus propios errores.