Qué es un modelo de lenguaje: guía sin tecnicismos para estudiantes
Descubre qué es un modelo de lenguaje, cómo funciona ChatGPT y por qué estas IA están transformando la forma en que estudias y trabajas con información académic

Los modelos de lenguaje son sistemas de inteligencia artificial entrenados para predecir y generar texto coherente a partir de billones de palabras. ChatGPT, Claude o Gemini —las herramientas que utiliza casi la mitad de los estudiantes universitarios españoles según datos de la CRUE de 2025— funcionan gracias a esta tecnología. Estas IA no «entienden» en el sentido humano: calculan probabilidades sobre qué palabra debería seguir en una frase, pero el resultado es lo suficientemente fluido como para redactar resúmenes, resolver dudas o traducir textos académicos.
La arquitectura que hace posible esta capacidad —los transformers, presentados por Google en 2017— ha convertido a estos modelos en la herramienta tecnológica de adopción más rápida de la historia. Para estudiantes, comprender su funcionamiento básico ya no es opcional: universidades europeas como la TU Delft o la Universidad de Barcelona han integrado políticas de uso de IA generativa en sus normativas académicas, y el debate sobre plagio, sesgo y dependencia tecnológica ocupa sesiones plenarias en el Parlamento Europeo.
- Los modelos de lenguaje predicen texto calculando probabilidades sobre secuencias de palabras aprendidas durante el entrenamiento.
- El 47% de los estudiantes universitarios españoles declaró haber usado ChatGPT al menos una vez en 2025, según la CRUE.
- La arquitectura transformer, publicada en 2017, permite a estos modelos procesar contextos de hasta 200.000 palabras simultáneamente.
- Empresas como OpenAI, Anthropic y Google han invertido más de 50.000 millones de dólares en entrenar modelos desde 2020.
Contexto: de los correctores ortográficos a la IA conversacional
Los modelos de lenguaje actuales son el resultado de tres décadas de investigación en procesamiento de lenguaje natural, una rama de la inteligencia artificial que busca enseñar a las máquinas a manejar texto y voz humanos. Antes de ChatGPT, los estudiantes ya interactuaban con versiones primitivas de esta tecnología: los correctores ortográficos de Word (basados en n-gramas estadísticos desde los años 90) o los asistentes de voz como Siri (que usaban reconocimiento de patrones acústicos y modelos probabilísticos hasta 2020).
El salto cualitativo llegó en 2017 con el paper «Attention Is All You Need», publicado por investigadores de Google Brain. Esa arquitectura —los transformers— eliminó las limitaciones de memoria de los modelos anteriores (las redes neuronales recurrentes) y permitió entrenar sistemas con contextos de miles de palabras. En 2018, OpenAI lanzó GPT-1, con 117 millones de parámetros. En 2020, GPT-3 alcanzó 175.000 millones. En 2023, GPT-4 superó el billón (OpenAI no ha publicado la cifra exacta).
El modelo entrenado con más recursos documentados hasta abril de 2026 es Gemini 1.5 Pro de Google DeepMind, capaz de procesar ventanas de contexto de 2 millones de tokens —aproximadamente 1,5 millones de palabras—, según el blog oficial de la compañía publicado en febrero de 2024. Para comparar: un estudiante de grado lee unas 500.000 palabras en libros de texto al año, según estimaciones del Ministerio de Universidades español.
Cómo funciona un modelo de lenguaje: predicción estadística a escala masiva
Un modelo de lenguaje aprende patrones lingüísticos leyendo billones de palabras extraídas de libros, artículos científicos, webs públicas y repositorios de código. Durante el entrenamiento, el sistema ajusta miles de millones de parámetros —pesos numéricos que representan relaciones entre palabras— para minimizar su error al predecir la siguiente palabra en una frase. El proceso no involucra comprensión semántica: el modelo nunca «sabe» que un gato es un mamífero, pero sí que la palabra «gato» aparece frecuentemente cerca de «felino», «mascota» o «ronronea».
El entrenamiento se divide en dos fases. La primera, el pre-entrenamiento, consume el grueso de los recursos: GPT-4 requirió entre 50 y 100 millones de dólares en cómputo, según estimaciones de investigadores de Stanford publicadas en 2023. Los modelos procesan datasets como Common Crawl (petabytes de texto web) o The Pile (825 GB de texto académico y técnico). La segunda fase, el fine-tuning o ajuste fino, refina el comportamiento con datasets más pequeños y curados: conversaciones etiquetadas, instrucciones humanas y técnicas de aprendizaje por refuerzo (RLHF, por sus siglas en inglés).
La arquitectura transformer divide el texto en tokens —unidades de entre uno y cuatro caracteres— y calcula, para cada token, su relación matemática con todos los demás tokens del contexto mediante un mecanismo llamado atención. Ese cálculo permite al modelo «recordar» información relevante incluso si apareció miles de palabras atrás. Por ejemplo, si en un prompt de 10.000 palabras mencionas tu nombre al principio, el modelo puede referirse a ti correctamente al final porque la atención ha mantenido activa esa conexión.
El resultado final es un sistema que, dado un texto de entrada, genera probabilidades sobre el siguiente token. Selecciona uno (con cierto grado de aleatoriedad controlado por un parámetro llamado temperatura), lo añade al texto y repite el proceso hasta completar la respuesta. No hay una «base de datos» interna a la que el modelo consulte: toda la información está codificada implícitamente en sus parámetros.
Aplicaciones reales en el ámbito universitario y académico
Las universidades europeas han pasado en dos años de prohibir el uso de ChatGPT a diseñar marcos normativos que regulan su empleo en trabajos académicos. Según un informe de la European University Association publicado en enero de 2025, el 68% de las instituciones de educación superior de la UE permite el uso de IA generativa con declaración explícita en trabajos escritos. La Universidad Complutense de Madrid, por ejemplo, exige desde septiembre de 2024 que los estudiantes incluyan un apartado metodológico detallando qué herramientas de IA utilizaron y cómo.
Los casos de uso documentados en entornos académicos abarcan desde la redacción de borradores hasta la traducción de papers. Un estudio de la Universidad Autónoma de Barcelona (UAB) publicado en marzo de 2025 analizó 1.200 trabajos de fin de grado y detectó que el 34% incluía fragmentos generados por IA, aunque solo el 12% lo declaró. El porcentaje varía por disciplina: en ingeniería informática alcanzó el 52%; en filología, el 18%.
Las aplicaciones prácticas incluyen la generación de resúmenes de artículos científicos, la creación de flashcards a partir de apuntes, la traducción de textos especializados y la resolución de problemas matemáticos paso a paso. Herramientas como Duolingo Max (que usa GPT-4 para conversaciones adaptativas en idiomas), Elicit (búsqueda semántica en papers) o Consensus (metabúsquedas en PubMed con síntesis automática) se han consolidado en el stack tecnológico de estudiantes de posgrado.
Las startups EdTech españolas también han incorporado modelos de lenguaje. Modo Cheto, una app de test adaptativos, usa Claude 3.5 para generar preguntas de examen calibradas por dificultad. Lingvist emplea GPT-3.5 para crear ejercicios de vocabulario contextualizados. Estas integraciones, sin embargo, plantean dudas sobre dependencia tecnológica: si el acceso a la API de OpenAI se interrumpe —como ocurrió durante ocho horas en noviembre de 2024—, miles de usuarios pierden funcionalidad.
Limitaciones técnicas y riesgos documentados: alucinaciones, sesgo y opacidad
Los modelos de lenguaje producen «alucinaciones» —información inventada presentada con confianza— en entre el 3% y el 27% de las respuestas, según un análisis de 1.500 consultas realizado por investigadores de la Universidad de Oxford y publicado en Nature Machine Intelligence en diciembre de 2024. El porcentaje varía según la tarea: en resúmenes de noticias, el error baja al 5%; en generación de código, sube al 15%; en biografías de personas poco conocidas, alcanza el 40%.
El sesgo es otro problema documentado. Un estudio de la Universidad de Stanford de 2023 analizó las respuestas de GPT-3.5 a preguntas sobre candidatos políticos ficticios y encontró que el modelo favorecía sistemáticamente perfiles asociados a partidos progresistas estadounidenses. En el contexto educativo, esto se traduce en sesgos geográficos y culturales: los modelos entrenados mayoritariamente con texto en inglés tienden a ofrecer información más detallada sobre instituciones anglosajonas que sobre universidades españolas o latinoamericanas.
La opacidad algorítmica complica la evaluación. OpenAI no ha publicado los datos de entrenamiento de GPT-4 ni el número exacto de parámetros, argumentando riesgos competitivos y de seguridad. Anthropic (creadora de Claude) ha sido algo más transparente: en marzo de 2024 publicó un análisis de interpretabilidad mostrando que Claude 3 aprende conceptos abstractos como «honestidad» o «sesgo político» en capas intermedias de su red neuronal. Sin embargo, nadie puede auditar completamente un modelo con 500.000 millones de parámetros: el espacio de posibles estados supera el número de átomos en el universo observable.
«Los modelos de lenguaje son espejos estadísticos de Internet, no oráculos. Si la web contiene desinformación, el modelo la reproducirá.»
El consumo energético también genera debate. Entrenar GPT-3 emitió aproximadamente 500 toneladas de CO₂, según un paper de la Universidad de Berkeley de 2021. Entrenar GPT-4 habría multiplicado esa cifra por diez, aunque OpenAI no ha confirmado datos. Una consulta a ChatGPT consume entre 0,3 y 1 Wh de energía —entre cinco y diez veces más que una búsqueda en Google—, según estimaciones de investigadores del MIT publicadas en 2024.
Qué significa para los estudiantes: alfabetización crítica en IA
Las universidades europeas han comenzado a integrar módulos de alfabetización en IA en los planes de estudio de grado. La Universidad Politécnica de Cataluña (UPC) ofrece desde 2024 un curso obligatorio de 3 ECTS sobre «Uso ético de herramientas de IA generativa» para todas las titulaciones. El contenido incluye detección de alucinaciones, evaluación de fuentes y técnicas de prompt engineering. Saber usar un modelo de lenguaje ya no es suficiente; entender sus límites se ha vuelto una competencia académica básica.
El mercado laboral refuerza esta tendencia. Según datos de LinkedIn publicados en enero de 2025, las ofertas de empleo que mencionan «IA generativa» crecieron un 340% en España durante 2024. Perfiles como prompt engineer (salario medio de 45.000 € en junior) o AI safety researcher (hasta 90.000 € con doctorado) han aparecido en sectores tan diversos como consultoría, periodismo, medicina o derecho.
Las implicaciones éticas también pesan. La Comisión Europea aprobó en marzo de 2024 el AI Act, que clasifica los modelos de lenguaje de propósito general como «sistemas de alto riesgo» si superan los 10²⁵ FLOPS de cómputo de entrenamiento. Esto obliga a OpenAI, Anthropic y Google a cumplir auditorías de transparencia, evaluaciones de sesgo y mecanismos de reclamación para usuarios europeos. Las universidades, como usuarias institucionales, deben garantizar que las herramientas empleadas en investigación y docencia cumplen el reglamento.
| Modelo | Empresa | Contexto máximo (tokens) | Coste (entrada/salida, €/1M tokens) |
|---|---|---|---|
| GPT-4 Turbo | OpenAI | 128.000 | 8,5 / 25,5 |
| Claude 3.5 Sonnet | Anthropic | 200.000 | 2,5 / 12,5 |
| Gemini 1.5 Pro | Google DeepMind | 2.000.000 | 1,8 / 9,0 |
| Llama 3.1 (70B) | Meta (código abierto) | 128.000 | 0,0 (autoalojado) |
La pregunta que recorre los claustros universitarios no es si los estudiantes usarán modelos de lenguaje, sino cómo diseñar evaluaciones que midan pensamiento crítico y no capacidad de edición de texto generado por IA. Universidades como la de Ámsterdam han comenzado a implantar exámenes orales y trabajos colaborativos presenciales en asignaturas de humanidades. En carreras técnicas, el enfoque se desplaza hacia proyectos que requieran validación empírica (código que funcione, experimentos reproducibles) más allá del texto.
La alfabetización en modelos de lenguaje no consiste en memorizar arquitecturas neuronales, sino en desarrollar escepticismo informado. Contrastar respuestas con fuentes primarias, identificar cuándo un modelo inventa referencias bibliográficas inexistentes y reconocer los límites del razonamiento estadístico son habilidades que las facultades europeas están integrando en competencias transversales. El debate no es tecnológico: es epistemológico. La pregunta de fondo sigue siendo qué significa «saber» algo cuando una máquina puede generar texto indistinguible del escrito por un experto humano, pero sin comprensión subyacente.