Gemini 2.5 Computer Use: La IA de Google que navega tu PC como un humano
¿Cansado de clics eternos? Este agente autónomo toma el control con precisión y velocidad, ¡y sin pedir permiso… casi!
Imagina un mundo donde la inteligencia artificial no solo responde preguntas, sino que navega por tu computadora como un asistente humano, cliqueando botones y rellenando formularios sin que muevas un dedo. Eso es exactamente lo que trae el nuevo modelo Gemini 2.5 Computer Use, desarrollado por Google DeepMind y basado en las capacidades visuales y de razonamiento de Gemini 2.5 Pro. Este modelo especializado permite crear agentes que interactúan directamente con interfaces de usuario, como navegadores web y aplicaciones móviles, superando a competidores en tareas clave con una latencia mucho menor. Desde hoy, los desarrolladores pueden acceder a él en preview a través de la API de Gemini, disponible en Google AI Studio y Vertex AI. Es un paso gigante hacia agentes de propósito general que manejan tareas digitales cotidianas de forma autónoma.
El funcionamiento de este modelo es fascinante y se basa en un ciclo iterativo que imita cómo interactuamos con las pantallas. Recibe como entrada la solicitud del usuario, una captura de pantalla del entorno y un historial de acciones recientes, analizando todo para decidir la siguiente movida, como hacer clic, escribir o desplazarse. Puedes excluir ciertas funciones de la lista completa de acciones soportadas o agregar unas personalizadas si lo necesitas. Una vez que el modelo genera una respuesta, típicamente una llamada a función, el código del cliente la ejecuta y envía de vuelta una nueva captura y la URL actual para continuar el loop hasta completar la tarea. Para acciones sensibles, como compras, pide confirmación al usuario, asegurando que todo fluya con control. Aunque optimizado principalmente para navegadores web, muestra gran potencial en controles de UI móviles, aunque no está listo para sistemas operativos de escritorio aún.
En términos de rendimiento, Gemini 2.5 Computer Use lidera en varios benchmarks de control web y móvil, como Online-Mind2Web, WebVoyager y AndroidWorld, según evaluaciones independientes y propias de Google. Por ejemplo, en pruebas de Browserbase para Online-Mind2Web, logra la mayor precisión con la latencia más baja, alrededor de 225 segundos para tareas complejas, lo que lo hace ideal para aplicaciones reales. Esto significa que no solo es preciso, sino eficiente, evitando esperas eternas que frustran a cualquiera. Los detalles de estas evaluaciones están disponibles en documentos específicos, y comparado con alternativas, destaca por equilibrar calidad y velocidad. Si estás desarrollando software, esto podría acelerar enormemente procesos como pruebas de UI.
La seguridad es prioridad absoluta en este avance, ya que agentes que controlan computadoras abren puertas a riesgos como mal uso intencional, comportamientos inesperados o inyecciones de prompts en entornos web. Google ha entrenado directamente en el modelo características de seguridad para mitigar estos problemas, detalladas en la Tarjeta del Sistema de Gemini 2.5 Computer Use. Además, ofrecen controles para desarrolladores, como un servicio de seguridad por paso que evalúa cada acción propuesta antes de ejecutarla, y instrucciones del sistema para que el agente rechace o pida confirmación en acciones de alto riesgo, como comprometer seguridad o manipular dispositivos médicos. Recomiendan probar exhaustivamente antes de lanzar, y hay documentación extensa con mejores prácticas. Así, se busca que estos agentes beneficien a todos sin sorpresas desagradables.
Equipos internos de Google ya lo usan en producción para casos como pruebas de interfaces de usuario, acelerando el desarrollo de software de manera significativa, y potencia proyectos como Project Mariner, el Agente de Pruebas de Firebase y capacidades agenticas en el Modo AI de Búsqueda. Testers tempranos lo aplican en asistentes personales, automatización de flujos de trabajo y más pruebas de UI, reportando resultados sólidos. Por ejemplo, en demos, maneja tareas como extraer datos de un sitio de cuidado de mascotas y agregarlas a un CRM de spa, o organizar notas adhesivas caóticas en categorías para un club de arte. Puedes ver estos ejemplos en acción visitando la demo en Browserbase, donde todo corre a velocidad triple para impresionar. Es emocionante ver cómo transforma tareas mundanas en algo fluido y eficiente.
En el video de abajo, los ingenieros de Google muestran cómo se ve el modelo que usa el computador. El prompt que han usado para controlar el agente es: “Mi club de arte hizo una lluvia de ideas con tareas para nuestra feria. El tablero está un caos y necesito tu ayuda para organizar las tareas en las categorías que creé. Entra a sticky-note-jam.web.app y asegúrate de que las notas estén en las secciones correctas. Arrástralas ahí si no lo están.”
Para empezar, el modelo está en preview pública vía la API de Gemini en Google AI Studio y Vertex AI, listo para que explores. Prueba el entorno de demo en Browserbase o sumérgete en la referencia y documentación para construir tu propio loop de agente, ya sea local con Playwright o en la nube. Únete a la comunidad en el Foro de Desarrolladores para compartir feedback y moldear el futuro. Revisa la documentación oficial para detalles enterprise en Vertex AI. Con esto, la IA da un salto hacia interacciones más intuitivas con nuestras herramientas digitales cotidianas.
Fuente | Blog de Google
Continúa Leyendo
Qualcomm adquiere Arduino para potenciar el IoT accesible
La noticia del día en el mundo de la tecnología es que Qualcomm, el gigante estadounidense de los chips y la …
Estudio de EE.UU. expone vulnerabilidades de seguridad en la IA china DeepSeek
La inteligencia artificial china DeepSeek ha recibido duras críticas tras un estudio realizado por el Centro para …