Un modelo de lenguaje afirma con total convicción que Albert Einstein suspendió matemáticas en el colegio (falso), que un artículo académico fue publicado en Nature en 2019 (inventado), o que la capital de Australia es Sídney (Melbourne es la ciudad más grande, pero la capital es Canberra). Lo hace sin dudar, sin señales de incertidumbre, con el mismo tono que usaría para afirmar que el agua hierve a 100 grados.
Esto se llama alucinación, y entender por qué ocurre es esencial para usar los modelos de lenguaje de forma responsable.
Qué es una alucinación de IA
En el contexto de los modelos de lenguaje, una alucinación es cualquier output que el modelo presenta como verdadero pero que es factualmente incorrecto, inventado o no verificable.
Las alucinaciones pueden ser:
- Hechos incorrectos (“la Revolución Francesa comenzó en 1793”)
- Citas inventadas (“como dijo Nietzsche en Así habló Zaratustra: …” + cita que no existe)
- Referencias bibliográficas falsas (títulos plausibles, autores reales, revistas existentes, pero el artículo concreto es inventado)
- Datos estadísticos fabricados
- Detalles incorrectos sobre personas reales
- Fechas, lugares o nombres equivocados en contextos históricos
Por qué ocurre estructuralmente
La alucinación no es un bug que se puede eliminar con suficiente ingeniería. Es una consecuencia directa de cómo funcionan los modelos.
Recuerda: un LLM predice cuál es la continuación más probable de un texto dado. “Probable” aquí significa “coherente con los patrones estadísticos aprendidos durante el entrenamiento”, no “factualmente correcto”.
El modelo no tiene acceso a un repositorio de hechos verificados que consulta al generar respuestas. Todo su “conocimiento” está codificado en los pesos —los parámetros numéricos ajustados durante el entrenamiento— y esos pesos capturan patrones estadísticos del texto, no verdades del mundo.
Cuando se le pregunta sobre algo que no está bien representado en sus datos de entrenamiento, el modelo no sabe lo que no sabe. No tiene una señal interna que indique “aquí hay incertidumbre: mejor indicarlo”. Simplemente genera el texto más estadísticamente plausible dado el contexto, y ese texto puede no corresponder a ningún hecho real.
El problema es que el modelo está entrenado para sonar seguro y coherente —así es como suena el texto humano de calidad. Esa propiedad, útil para la fluidez, es peligrosa cuando produce hechos incorrectos con el mismo tono que produce hechos correctos.
Tipos de alucinación
Alucinaciones de forma plausible. Las más peligrosas son las que suenan completamente razonables. “El estudio de Harvard de 2018 sobre productividad encontró que…” — el formato es correcto, la institución existe, el tema es plausible. Solo que el estudio no existe.
Confusión entre entidades similares. Mezclar datos de dos personas con el mismo nombre, confundir eventos históricos parecidos, aplicar características de una ciudad a otra. El modelo ha visto mucho texto sobre ambas entidades y las mezcla.
Extrapolación incorrecta. El modelo conoce hechos sobre X y los extrapola incorrectamente a Y. Sabe cómo funciona la política monetaria en EE.UU. y aplica ese marco a la zona euro con detalles incorrectos.
Fechas y números. Los números concretos —estadísticas, fechas, precios, distancias— son especialmente propensos a error. El modelo aprende el contexto en el que aparecen los números pero no necesariamente los valores exactos.
Señales de alarma
No todas las afirmaciones de un modelo tienen el mismo riesgo de alucinación. Estas señales sugieren mayor precaución:
- Datos muy específicos: fechas exactas, estadísticas con decimales, citas textuales
- Temas poco frecuentes en el entrenamiento: legislación de países pequeños, investigación de nicho, eventos regionales
- Referencias bibliográficas: títulos, autores, revistas, páginas concretas
- Información reciente: eventos posteriores a la fecha de corte del modelo
- Afirmaciones sobre personas: detalles biográficos, declaraciones atribuidas, logros específicos
- Respuestas muy detalladas sobre temas técnicos complejos en los que el error es difícil de detectar sin conocimiento previo
Estrategias de verificación
La alucinación no hace inutilizables a los modelos de lenguaje. Hace necesario verificar de forma selectiva.
Pide fuentes y verifica. Si el modelo menciona un estudio, una cita o un dato específico, busca esa fuente externamente antes de usarla. No aceptes la referencia del modelo como validación: ha podido inventarla.
Usa el modelo para verificar al modelo. Después de una respuesta, puedes preguntar: “¿Estás seguro de esta información? ¿Qué nivel de confianza tienes?” El modelo no siempre detecta sus propios errores, pero a veces reconoce incertidumbre cuando se le pregunta directamente.
Triangula con búsqueda web. Para información factual importante, usa el modelo para identificar qué buscar y usa un buscador para confirmar. Los modelos con acceso a búsqueda en tiempo real reducen (pero no eliminan) las alucinaciones factual.
Distingue por tipo de tarea. Las alucinaciones son un riesgo menor cuando usas el modelo para reformular, brainstorm, estructurar o sintetizar información que tú mismo aportas. Son un riesgo mayor cuando le pides información factual que no puedes verificar fácilmente.
El escepticismo calibrado. No desconfíes de todo lo que dice el modelo —eso lo hace inutilizable. Desconfía proporcionalmente: más cuando la afirmación es muy específica y difícil de verificar, menos cuando es general y corresponde a conocimiento ampliamente documentado.
Trabajar con modelos de lenguaje es trabajar con una fuente de información potente pero no fiable en todos los contextos. La verificación no es una opción: es parte del flujo de trabajo.