Uno de los errores más frecuentes en el uso de IA es asumir que los modelos son neutrales porque no tienen agenda propia. No la tienen —no son seres con intenciones— pero tampoco son neutrales. Los sesgos que contienen son tan reales como los de cualquier otra fuente de información, y en algunos casos más difíciles de detectar porque están envueltos en el tono seguro y articulado de un modelo de lenguaje bien alineado.
Qué es un sesgo en IA
En el contexto de los modelos de lenguaje, un sesgo es cualquier desviación sistemática del output del modelo respecto a lo que sería una representación justa o correcta de la realidad.
Los sesgos en IA tienen su origen en tres fuentes:
Los datos de entrenamiento. Si los datos sobre-representan ciertas perspectivas, idiomas, culturas o grupos, el modelo aprende esa distribución y la replica. Si internet —la principal fuente de datos de entrenamiento— contiene más texto en inglés que en cualquier otro idioma, más texto escrito por hombres que por mujeres, más perspectivas del Norte Global que del Sur, eso se refleja en los modelos.
Las decisiones de alineamiento. Los valores y criterios que guían el RLHF no son neutrales: reflejan las preferencias de los evaluadores, que a su vez reflejan sus culturas, experiencias e instrucciones. Lo que se considera una “buena respuesta” está inevitablemente influenciado por quién define “bueno”.
La arquitectura. Algunas limitaciones no son de datos ni de alineamiento sino estructurales: son consecuencias del mecanismo de predicción que no se pueden eliminar sin cambiar fundamentalmente cómo funciona el modelo.
Sesgos de representación
Los sesgos de representación son los más documentados y quizás los más intuitivos.
Sesgos lingüísticos. Los modelos funcionan mejor en inglés que en cualquier otro idioma. Dentro de los hablantes de español, funcionan mejor con variantes de España y América Latina bien representadas en internet. Los idiomas con menos presencia digital tienen modelos significativamente peores.
Sesgos culturales. Las referencias, ejemplos y marcos conceptuales que los modelos usan por defecto tienden a ser occidentales y anglófonos. Preguntas sobre contextos legales, sociales o históricos no occidentales producen respuestas menos matizadas.
Sesgos de género y representación. Los estudios muestran que los modelos asocian ciertos roles (médico, CEO, ingeniero) más frecuentemente con pronombres masculinos y otros (enfermera, secretaria, cuidador) con femeninos, cuando se generan textos sin especificación de género. Esto refleja la distribución estadística en los datos de entrenamiento.
Sesgos históricos. Los datos de entrenamiento tienen una distribución temporal: hay mucho más contenido reciente que antiguo. Eventos y figuras históricas menos documentados digitalmente están peor representados.
Sesgos de alineamiento
El proceso de alineamiento —diseñado para hacer los modelos más útiles y seguros— introduce sus propios sesgos.
Exceso de cautela. Los modelos alineados con fuerza tienden a ser excesivamente cautelosos: añaden disclaimers innecesarios, se niegan a hacer cosas perfectamente razonables por si acaso, o dan respuestas tan equilibradas que no son útiles. “Por un lado X, por otro Y, consulta a un profesional” no siempre es la respuesta más útil.
Homogeneización de perspectivas. El RLHF optimiza hacia las respuestas que los evaluadores prefieren. Si los evaluadores tienen perspectivas relativamente homogéneas, el modelo aprende a producir respuestas que son populares con ese grupo, no necesariamente las más correctas o diversas.
Sesgo de confirmación implícito. Los modelos tienden a generar texto que valida las premisas del prompt. Si formulas una pregunta que asume algo incorrecto, el modelo a veces produce texto que acepta esa premisa en lugar de cuestionarla.
Límites estructurales del razonamiento
Más allá de los sesgos de datos y alineamiento, hay limitaciones que son consecuencias del mecanismo de predicción:
Razonamiento matemático inconsistente. Los modelos de lenguaje cometen errores en aritmética y álgebra, especialmente en cálculos multi-paso. No tienen un módulo matemático: resuelven problemas matemáticos generando texto que se parece a la solución de un problema matemático.
Razonamiento espacial y geométrico. Los modelos son notoriamente malos razonando sobre relaciones espaciales, orientaciones y geometría. Visualizar mentalmente objetos tridimensionales o sus transformaciones es difícil para un sistema entrenado sobre texto.
Razonamiento sobre el tiempo. La comprensión de secuencias temporales, duraciones y relaciones causales en el tiempo es menos robusta de lo que parece en los outputs superficiales.
Calibración de incertidumbre. Los modelos tienden a sonar igual de seguros cuando saben algo bien que cuando están “alucinando”. La confianza expresada no correlaciona de forma fiable con la probabilidad de corrección.
Cómo trabajar con esto
El conocimiento de los sesgos y límites no es motivo para no usar los modelos: es la base para usarlos bien.
Sé escéptico con afirmaciones que confirman tu visión. Si el modelo produce algo que te parece perfectamente correcto e inteligente, eso no es evidencia de que sea cierto. Los modelos son muy buenos produciendo texto que suena convincente y valida las premisas del prompt.
Diversifica tus fuentes de información. No bases decisiones importantes solo en lo que un modelo te dice. Triangula con fuentes primarias, especialmente para información factual específica.
Para cálculos importantes, verifica. Usa un modelo que tenga acceso a código ejecutable (code interpreter) para matemáticas no triviales, o verifica externamente.
Sé explícito sobre el contexto cultural. Si tu pregunta tiene un contexto cultural específico que puede diferir del predeterminado del modelo, especifícalo. “En el contexto legal español” o “desde la perspectiva de una empresa latinoamericana” produce mejores resultados que asumir que el modelo lo adivina.
Pregunta por la incertidumbre. “¿Qué nivel de confianza tienes en esta afirmación?” o “¿Qué no sabes sobre este tema?” a veces produce respuestas más honestas sobre los límites del conocimiento del modelo.
Los modelos de lenguaje son herramientas poderosas con limitaciones reales. Usarlos bien requiere exactamente lo mismo que usar cualquier otra fuente de información bien: criterio, contexto y verificación donde importa.