Cuando hablas con un modelo de IA, no existe una memoria persistente entre sesiones. Cada vez que abres una conversación nueva, el modelo empieza de cero. Pero dentro de esa sesión, sí puede ver y procesar todo lo que has escrito, todo lo que él ha respondido y cualquier documento que hayas pegado. A ese espacio de trabajo activo se le llama ventana de contexto.

Durante años fue uno de los límites más frustrantes de los modelos de lenguaje. Hoy es uno de sus activos más potentes.

Qué es la ventana de contexto

La ventana de contexto es la cantidad de texto que un modelo puede ver al mismo tiempo mientras genera una respuesta. No es un archivo guardado ni un historial recuperable: es, literalmente, lo que está cargado en la memoria activa del modelo en el momento de procesar tu petición.

Ese espacio incluye todo: el mensaje del sistema con las instrucciones iniciales, el historial de la conversación, cualquier documento que hayas adjuntado y la respuesta que está generando. Cuando algo queda fuera de ese espacio, el modelo no puede acceder a ello.

La unidad de medida es el token, que corresponde aproximadamente a tres cuartas partes de una palabra en inglés o algo menos en español. Un modelo con una ventana de 200.000 tokens puede procesar alrededor de 150.000 palabras en una sola sesión: el equivalente a una novela larga.

Cómo se mide y qué implica

Durante los primeros años de los LLMs modernos, las ventanas eran pequeñas: 4.096 tokens, luego 8.000, luego 32.000. Esos límites obligaban a dividir documentos, resumir conversaciones previas o trabajar con fragmentos.

Hoy los modelos más capaces trabajan con ventanas de 128.000 a 1.000.000 de tokens. Eso transforma las posibilidades:

  • Puedes pegar el contrato completo, no solo el párrafo que te preocupa.
  • Puedes mantener una conversación larga sin perder el hilo.
  • Puedes cargar varios documentos relacionados y pedir que el modelo los analice en conjunto.
  • Puedes trabajar en un proyecto largo sin tener que resumir el contexto cada pocas respuestas.

Sin embargo, el tamaño no es el único factor que importa. La calidad de atención del modelo varía según qué parte de la ventana ocupa el contenido: los modelos tienden a prestar más atención al principio y al final de un texto largo que al centro. Es el llamado efecto de pérdida en el medio, documentado en varios estudios de benchmarking.

Qué pasa cuando se llena

Cuando la conversación supera la ventana de contexto, algo tiene que salir. Dependiendo de la plataforma, puede ocurrir que:

El modelo empiece a olvidar las partes más antiguas de la conversación. Algunos sistemas deslizan la ventana, eliminando los mensajes más viejos a medida que se agregan nuevos.

La plataforma avise y proponga resumir el historial o empezar una nueva sesión. Este es el comportamiento más transparente.

El modelo cometa errores de coherencia sin avisar, porque ya no tiene acceso a información que proporcionaste antes. Esto es más peligroso porque puede pasar desapercibido.

Si trabajas en proyectos largos con IA, aprender a detectar cuándo el contexto se está agotando es una habilidad práctica concreta.

Cómo sacarle partido en la práctica

Entender la ventana de contexto cambia la forma de estructurar el trabajo con IA. Algunas prácticas que marcan diferencia:

Pon las instrucciones críticas al principio y repítelas al final en sesiones largas. El modelo presta más atención a esas posiciones. Las instrucciones enterradas en el centro de un contexto muy largo se aplican con menos fiabilidad.

Carga los documentos completos cuando puedas. Un modelo con 200.000 tokens puede analizar un informe de 80 páginas de una vez. No es necesario fragmentarlo: el resultado es más coherente cuando el modelo ve el conjunto.

Monitoriza la longitud de la sesión en tareas que requieren coherencia. Si estás trabajando en algo que exige que el modelo recuerde detalles tempranos, considera hacer un resumen explícito del estado del proyecto antes de que la ventana se llene.

Distingue entre memoria de sesión y memoria persistente. Algunos sistemas ofrecen memoria entre sesiones mediante herramientas externas: bases de datos vectoriales, ficheros de resumen, sistemas de RAG. Eso no es la ventana de contexto: es una capa adicional de arquitectura que alimenta información relevante dentro de la ventana cuando se necesita.

La memoria que importa

La ventana de contexto no es la única forma de memoria en un sistema de IA, pero sí es la más inmediata. Es el espacio donde ocurre el razonamiento, donde se conectan las piezas, donde el modelo puede seguir el hilo de lo que estás construyendo.

Trabajar bien con ella no requiere ser experto en arquitecturas de modelos. Requiere entender una idea sencilla: el modelo no sabe nada que no esté dentro de esa ventana en ese momento. Lo que pones allí, cómo lo estructuras y cuánto espacio dejas disponible para el razonamiento importa tanto como la pregunta que formulas.

En los próximos años, las ventanas seguirán creciendo. Pero la habilidad de estructurar información para que un modelo la use bien no se vuelve obsoleta con cada nueva versión: al contrario, se vuelve más valiosa.