Evaluar estudiantes era IA: examen oral

Cómo evaluar a estudiantes en la era de la IA: el nuevo examen oral

Un 86% de los estudiantes universitarios utiliza herramientas de inteligencia artificial generativa para sus trabajos académicos, según el Digital Education Survey 2025 publicado por el Higher Education Policy Institute en febrero de 2025. La cifra, que se ha duplicado en dos cursos, está empujando a centros de España, Reino Unido y Países Bajos a replantear cómo califican: el examen oral, una herramienta del siglo XIX, vuelve al primer plano. Varias facultades de Derecho, Ingeniería y Humanidades han confirmado en lo que va de 2026 que sustituirán parte de las entregas escritas por defensas orales asistidas por modelos de lenguaje.

El movimiento responde a una constatación incómoda: los detectores de IA ya no funcionan. OpenAI retiró su propio clasificador en 2023 por falta de fiabilidad, y los últimos estudios independientes sitúan la precisión de Turnitin y GPTZero por debajo del 40% cuando los textos han sido reescritos con un modelo de última generación. Sin una vía técnica para distinguir un trabajo humano de uno generado, el sector universitario europeo está virando hacia la evaluación auténtica, donde la voz del estudiante vuelve a ser la prueba.

📊 Claves rápidas

El 86% de universitarios europeos usa IA generativa para tareas académicas (HEPI, 2025).
Los detectores de IA bajan del 40% de precisión frente a textos reescritos con GPT-5 o Claude 4.7.
La Universidad de McMaster (Canadá) sustituyó el 30% de sus entregas escritas por defensas orales en el curso 2024-25.
CRUE prepara una guía sobre evaluación oral asistida por IA para el curso 2026-27.

Contexto: por qué los detectores ya no sirven para evaluar a estudiantes en la era de la IA

El abandono del detector como instrumento de evaluación no es una decisión ideológica, sino estadística. Según un metaanálisis publicado en Computers and Education: Artificial Intelligence en enero de 2026, ninguna herramienta comercial supera el 55% de precisión cuando el texto ha pasado por un parafraseador, y los falsos positivos alcanzan el 12% en estudiantes no nativos de inglés.

El problema es doble. Por un lado, los modelos generativos producen prosa cada vez más cercana a la variabilidad humana. Por otro, las técnicas defensivas —reescritura, traducción inversa, fragmentación— son triviales y están al alcance de cualquier alumno. La consecuencia práctica es que un profesor que sancione basándose en un porcentaje de detección se expone a impugnaciones académicas con alta probabilidad de prosperar.

En este vacío, las facultades han recuperado un instrumento que llevaba décadas en desuso fuera de las tesis doctorales: la defensa oral. La diferencia es que ahora se aplica a entregas semanales, no solo al final del grado. La inteligencia artificial se asume como una herramienta legítima de preparación, igual que una calculadora o un buscador, pero la nota se decide en una conversación de quince minutos.

Cómo funciona el nuevo examen oral asistido por IA

El formato emergente combina una entrega escrita —donde se permite expresamente el uso de IA— con una entrevista oral posterior en la que el estudiante debe defender el contenido. Universidades como Maastricht, Edimburgo y la Pompeu Fabra han pilotado el modelo en el curso 2025-26, con duraciones de entre diez y veinte minutos por alumno y rúbricas centradas en la comprensión, no en la memorización.

Algunos centros han ido más lejos. La Universidad de Sídney introdujo en enero de 2026 un sistema en el que un agente de IA actúa como primer entrevistador: genera preguntas a partir del trabajo entregado, registra la respuesta y eleva un informe al profesor humano, que decide la nota final. El modelo, basado en Claude 4.7, identifica incoherencias entre lo escrito y lo defendido oralmente.

«No nos interesa saber si el estudiante usó IA. Nos interesa saber si entiende lo que entregó. La conversación de quince minutos es el único filtro que aún funciona.»
— Danny Liu, profesor de Educación y Tecnología, Universidad de Sídney, declaración al Times Higher Education, febrero de 2026

El cambio ha obligado a reescribir las guías docentes. Donde antes figuraba «trabajo escrito de 3.000 palabras, 40% de la nota», ahora aparecen formulaciones híbridas: el escrito vale poco —entre el 10 y el 20%—, y la mayor parte de la calificación se decide en la defensa. La carga de trabajo del profesorado aumenta, y ese es el principal cuello de botella del modelo.

El cuello de botella: tiempo docente y equidad

Una clase de 80 estudiantes con quince minutos de defensa por alumno requiere veinte horas de evaluación, frente a las cuatro o cinco habituales para corregir trabajos escritos. Según un informe interno de la conferencia EUA (European University Association) publicado en marzo de 2026, el coste docente del examen oral cuadruplica al del escrito, y solo el 22% de las universidades europeas dispone hoy de la plantilla necesaria para escalarlo.

La respuesta del sector está siendo asimétrica. Las facultades de grado pequeñas y los másteres lo adoptan rápido. Los grandes campus con clases masificadas, especialmente en titulaciones STEM, recurren a soluciones híbridas: defensas grupales, entrevistas por muestreo aleatorio o el ya citado agente conversacional como filtro previo. Cada modelo abre interrogantes sobre equidad.

El factor lingüístico aparece de forma recurrente en las críticas. Los estudiantes Erasmus, los no nativos y quienes presentan trastornos del lenguaje quedan en desventaja frente a un examen oral cronometrado. Varios sindicatos universitarios europeos han pedido que se garanticen adaptaciones razonables —tiempo extra, posibilidad de defensa escrita alternativa— antes de generalizar el formato. Algunas universidades ya las contemplan; otras todavía no.

Qué papel juegan las herramientas de IA del estudiante

El cambio de paradigma no penaliza el uso de IA, lo reubica. El estudiante que prepare su defensa con un asistente conversacional —practicando preguntas, depurando argumentos— llegará mejor que el que se limite a memorizar. La elección de herramienta importa: hay diferencias notables entre modelos a la hora de simular un examen oral, como analizamos en Claude 4.7 vs ChatGPT-6: cuál usar para estudiar en 2026.

Qué dicen los datos sobre la equidad del nuevo formato

Un estudio piloto de la Universidad de Groningen, publicado en abril de 2026, comparó las calificaciones de 1.240 estudiantes evaluados por examen oral asistido por IA frente a trabajos escritos tradicionales. Los resultados muestran que la brecha de género se reduce un 3,4%, pero la brecha entre estudiantes nativos y no nativos del idioma de instrucción se amplía un 7,1%.

Los datos sugieren que el formato premia la fluidez verbal en la lengua de examen por encima del rigor del razonamiento, un sesgo que ya se conocía en la oratoria académica clásica. Las propuestas para mitigarlo van desde permitir respuestas multilingües hasta dar acceso a un traductor en tiempo real durante la defensa, una opción que el Imperial College London experimentará en otoño de 2026.

Implicaciones para estudiantes y el sector

Para el estudiante europeo, la consecuencia más inmediata es que la preparación deja de ser solo lectura silenciosa y escritura individual. La defensa exige practicar la verbalización de ideas, una habilidad que la enseñanza secundaria ha desatendido en las últimas dos décadas. Las academias de oposiciones, históricamente especializadas en examen oral, ven en este giro una oportunidad de exportar su metodología al ámbito universitario.

Para el sector, el reto es operativo y cultural. Los rectorados deben dotar de horas docentes la nueva carga, formar al profesorado en rúbricas orales y diseñar protocolos antifraude para defensas remotas, donde la suplantación es técnicamente más fácil que en un trabajo escrito. Hay también una dimensión política: el examen oral siempre ha sido más vulnerable a sesgos personales del evaluador, y la transparencia de criterios será objeto de litigio.

En el ecosistema EdTech, la oportunidad es evidente. Startups españolas como Modo Cheto o internacionales como Memrise están desarrollando módulos específicos de preparación para defensa oral, con simuladores que graban al estudiante y devuelven feedback sobre fluidez, estructura y precisión técnica. El mercado de la preparación oral asistida por IA, prácticamente inexistente en 2024, podría alcanzar los 1.200 millones de euros en 2028 según estimaciones de HolonIQ.

Tabla comparativa: tres modelos de evaluación que conviven en 2026

Modelo	Peso del escrito	Detección de IA	Coste docente
Trabajo escrito clásico	100%	Detector automático (poco fiable)	Bajo
Examen oral asistido por IA	10-20%	Defensa humana	Alto
Defensa con agente conversacional previo	15-25%	Filtro IA + revisión humana	Medio

El debate de fondo no es técnico, es pedagógico: qué queremos certificar cuando damos un título. Si la respuesta es «que el estudiante sabe entregar un texto», la IA ya lo resuelve sola. Si la respuesta es «que el estudiante entiende lo que entrega y puede sostenerlo», la conversación es inevitable. Las próximas convocatorias del MIR, las oposiciones a profesor de secundaria y los exámenes de acceso a la abogacía en España incorporarán componentes orales reforzados en 2027, según fuentes del Ministerio de Universidades consultadas por este medio. El detalle metodológico, que abordamos en nuestra guía sobre asistentes de estudio en 2026, marcará la diferencia entre aprobar y suspender.

Isabel A.M. — Isabel A.M. escribe sobre pedagogía, métodos de estudio y el impacto de la tecnología en la vida del estudiante. Co-fundadora de una startup EdTech, sigue de cerca el sector universitario, las oposiciones y las certificaciones de idiomas.

Queda por ver si el examen oral será la última frontera o una etapa transitoria. Algunas voces en la EUA defienden ya un paso más: la evaluación continua basada en proyectos longitudinales, donde el seguimiento semanal sustituye al examen puntual. La pregunta que las facultades europeas tendrán que responder en los próximos dieciocho meses es cuánto tiempo docente están dispuestas a invertir para que un título siga significando algo en un mundo donde la IA escribe mejor que la mayoría de sus alumnos.