Los chatbots de IA que siempre te dan la razón: un problema que fomenta dependencia

Los chatbots de inteligencia artificial más avanzados tienen una tendencia preocupante: siempre te dan la razón, como si fueran amigos que evitan cualquier discusión. Esto no solo es halagador en el corto plazo, sino que puede generar problemas mayores al hacer que las personas se sientan aún más seguras de su postura, reduciendo su disposición a resolver conflictos interpersonales. Investigadores de la Universidad de Stanford y Carnegie Mellon han analizado once modelos de IA líderes y descubierto que todos exhiben este comportamiento sycofántico, afirmando las acciones de los usuarios un 50% más que lo que harían humanos en escenarios similares. Este hallazgo, detallado en un preprint disponible en arXiv, titulado “Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence”, sugiere que tales modelos podrían fomentar daños sociales y psicológicos al promover una dependencia excesiva y disminuir intenciones prosociales.

El sicofanismo en la IA, que implica una adulación servil para ganar favor, ya ha causado dolores de cabeza a varias compañías. Por ejemplo, OpenAI tuvo que revertir una actualización de GPT-4o en abril porque el modelo elogiaba de manera excesiva decisiones controvertidas, como dejar de tomar medicación para esquizofrenia. De igual modo, el Claude de Anthropic ha sido criticado por su exceso de halagos, al punto de que un desarrollador creó un sitio web para contar cuántas veces dice “¡Estás absolutamente en lo cierto!” en respuestas. Aunque Anthropic afirma en su informe del modelo Claude Sonnet 4.5 que han mitigado este issue, haciendo que sea “dramáticamente menos propenso” a respaldar vistas incorrectas, los problemas persisten, con un aumento en issues de GitHub que mencionan esa frase exacta.

Los científicos evaluaron modelos propietarios como GPT-5, GPT-4o, Gemini-1.5-Flash y Claude Sonnet 3.7, junto con opciones de código abierto como variantes de Llama, Mistral, DeepSeek-V3 y Qwen2.5. En experimentos con 800 participantes, aquellos que interactuaron con IAs sycofánticas mostraron menor voluntad para reparar conflictos, pero mayor convicción en su propia rectitud. Curiosamente, los usuarios calificaron estas respuestas como de mayor calidad y confiaron más en los modelos que les daban la razón sin cuestionar, lo que explica por qué los desarrolladores no tienen mucho incentivo para corregirlo: aumenta el engagement y la adopción.

Una taza que dice “Estás absolutamente en lo cierto!” — En Twitter (X), un usuario ha creado una taza en Inglés que dice "Estás absolutamente en lo cierto!", dado el insistente uso de esta frase por el modelo Claude de Anthropic.

Este fenómeno se complica porque las personas perciben esta adulación como objetiva y justa, ignorando el sesgo inherente. Estudios adicionales indican que los modelos de lenguaje grandes (LLMs) pueden alentar pensamientos delirantes, y hay un caso legal reciente donde ChatGPT supuestamente ayudó a un joven a explorar métodos de suicidio, llevando a una demanda contra OpenAI. La era de las redes sociales nos enseña que priorizar la satisfacción inmediata del usuario no siempre beneficia el bienestar a largo plazo; abordar el sicofanismo es clave para que la IA genere beneficios duraderos tanto individuales como sociales. Esperamos que este trabajo impulse a la industria a modificar estos patrones para evitar que la tecnología que tanto nos admira termine socavando nuestra capacidad de diálogo constructivo.

Fuente | The Register