Princeton vigila exámenes por IA tras 133 años

Princeton vuelve a vigilar exámenes tras 133 años: culpa de la IA

La Universidad de Princeton ha anunciado el regreso de la supervisión presencial obligatoria en sus exámenes finales a partir del curso 2026-27, después de 133 años apoyándose en el Honor Code de 1893. La decisión, comunicada el 12 de mayo por el comité académico del campus, responde directamente al uso «sistemático y difícilmente detectable» de modelos de lenguaje como ChatGPT y Claude durante las pruebas en remoto, según el informe interno filtrado a The Daily Princetonian.

La medida rompe con uno de los pactos académicos más antiguos de la educación superior estadounidense y reabre un debate que las universidades europeas llevan tres cursos esquivando. Si Princeton renuncia a confiar en la palabra de sus estudiantes, la pregunta deja de ser si la IA generativa ha cambiado la evaluación universitaria, y pasa a ser cuántas instituciones más reconocerán pronto que su sistema actual ya no funciona.

📊 Claves rápidas

Princeton restituye la vigilancia presencial en exámenes finales desde otoño de 2026, tras 133 años de Honor Code.
El comité académico documenta un aumento del 38% en investigaciones por integridad académica entre 2023 y 2025.
La universidad invertirá 4,2 millones de dólares en adaptar aulas y contratar supervisores externos.
Yale, Brown y MIT estudian medidas equivalentes para el curso siguiente, según fuentes citadas por Inside Higher Ed.

Contexto: 133 años de confianza desmontados por ChatGPT

El Honor Code de Princeton se instauró en 1893 como uno de los primeros sistemas universitarios basados en la autorregulación estudiantil. Durante más de un siglo, los exámenes se hicieron sin supervisión y los propios alumnos denunciaban a quienes copiaban. Según el comité académico de la universidad (mayo de 2026), ese modelo ha pasado de funcionar al 96% de cumplimiento declarado en 2019 al 71% estimado en 2025.

El sistema sobrevivió a calculadoras programables, a Wikipedia y a la primera oleada de «chegging» durante la pandemia. La irrupción de ChatGPT en noviembre de 2022 y la posterior llegada de modelos con razonamiento avanzado en 2024 marcaron el punto de inflexión. El informe interno reconoce que los exámenes a libro abierto, dominantes en humanidades y ciencias sociales en Princeton, «han dejado de medir competencias del estudiante de forma fiable».

El golpe no llega aislado. En febrero de 2026, Stanford retiró los exámenes take-home de su programa de Computer Science. Harvard avanzó hacia evaluaciones orales en cinco departamentos. La diferencia es simbólica: Princeton era el bastión histórico de la confianza académica autorregulada, y su giro envía una señal al resto del Ivy League.

Los datos: por qué la IA generativa rompió el modelo

Según el informe de integridad académica de Princeton (2025), las investigaciones por presunto uso no autorizado de IA crecieron un 38% en dos cursos. El 62% de esos casos terminó archivado por falta de prueba, ya que las herramientas de detección automática presentan tasas de falsos positivos superiores al 9%, según un estudio de Stanford HAI publicado en marzo de 2026.

La paradoja es clara. Los detectores tipo Turnitin AI o GPTZero penalizan tanto al estudiante que usa ChatGPT como al que escribe en inglés no nativo con sintaxis demasiado regular. OpenAI retiró su propio clasificador en julio de 2023 por baja precisión, y desde entonces no ha publicado un sustituto fiable. Las universidades se han quedado sin herramienta forense robusta.

El segundo dato relevante: el 54% de los estudiantes universitarios estadounidenses reconoce haber usado IA generativa para tareas evaluables al menos una vez al mes, según la encuesta de Pew Research Center publicada en abril de 2026. La cifra sube al 71% en STEM. Hace dos años, ese porcentaje rondaba el 23%.

«El Honor Code no ha muerto, pero ya no puede sostener solo el peso de una promesa académica frente a una tecnología que multiplica por diez la productividad de un estudiante medio sin dejar rastro. Tenemos que separar lo que pedimos del cómo lo verificamos.»
— Jennifer Rexford, decana académica de Princeton, comunicado oficial del 12 de mayo de 2026

Qué cambia exactamente en Princeton

La nueva política, aprobada por el Faculty Committee on Examinations el 12 de mayo de 2026, establece tres niveles de supervisión para los exámenes finales. El nivel 1 (presencial con supervisor humano) será obligatorio en todas las asignaturas con más de 40 alumnos. La universidad estima un coste de 4,2 millones de dólares anuales en infraestructura y personal.

Princeton no prohíbe la IA en el aula. Lo que cambia es la arquitectura de la evaluación. Las clases podrán seguir usando herramientas como ChatGPT, Claude o NotebookLM para trabajos, ensayos y proyectos de curso. Pero la nota final pasará por un examen presencial obligatorio, sin dispositivos, supervisado físicamente y con identificación verificada.

La medida divide a profesores y estudiantes. Algunos docentes de humanidades temen un retorno al examen memorístico que la universidad había evitado durante un siglo. Estudiantes consultados por The Daily Princetonian denuncian que la decisión «criminaliza herramientas que las empresas exigen en las prácticas». El sindicato estudiantil ha pedido una consulta vinculante antes de la implementación.

Universidad	Medida (2025-26)	Enfoque
Princeton	Exámenes presenciales obligatorios >40 alumnos	Restrictivo
Stanford	Fin de take-home en CS, IA permitida en proyectos	Mixto
Harvard	Exámenes orales en 5 departamentos	Adaptativo
MIT	«AI-aware exams»: IA permitida con declaración	Integrador

Implicaciones para Europa y España

Las universidades españolas han evitado pronunciamientos formales desde la Conferencia de Rectores (CRUE) en 2024, cuando se publicó un decálogo orientativo sobre IA generativa. Según el último barómetro de UNESCO (abril de 2026), solo el 17% de las universidades europeas ha modificado su normativa de evaluación tras la irrupción de los modelos generativos avanzados.

El movimiento de Princeton presiona indirectamente al sistema español, donde la mayoría de exámenes finales ya son presenciales por tradición y por requisitos LOSU. La fricción europea no está en el examen, sino en el TFG, TFM y trabajos evaluables. Universidades como Carlos III, Pompeu Fabra y UPV han creado comisiones internas, pero las sanciones por uso de IA siguen siendo excepcionales.

En paralelo, el ecosistema EdTech avanza en dirección contraria: startups españolas como Modo Cheto, Memrise o herramientas internacionales como Khanmigo integran IA en el proceso de estudio asumiendo que será imposible erradicar su uso. El debate sobre qué son los agentes de IA y cómo los usan ya los estudiantes en 2026 se ha desplazado del aula al claustro.

Qué significa para estudiantes y profesores

El cambio de Princeton anticipa un escenario europeo de «doble velocidad» durante los próximos 24 meses. Universidades de élite endurecerán la supervisión, mientras instituciones de tamaño medio mantendrán normativas laxas por falta de presupuesto. La consultora HolonIQ estimó en febrero de 2026 que el gasto global en proctoring presencial volverá a niveles pre-pandémicos en 2027.

Para el estudiante, la consecuencia inmediata es asumir que la evaluación volverá a separarse del estudio. Estudiar con IA seguirá siendo legítimo y, en muchos casos, recomendado por los propios docentes. Pero el filtro final se hará en condiciones controladas. Las competencias memorísticas y de redacción manual ganan peso de nuevo.

Para el profesorado, el reto es rediseñar pruebas que no se reduzcan a recitar contenido. Algunas facultades han empezado a experimentar con exámenes orales grabados, defensas tipo viva voce, y portfolios verificables. La discusión sobre cómo evaluar competencias reales en un contexto saturado de IA conecta con el debate sobre el papel cambiante del estudiante universitario y sus herramientas cotidianas.

El frente abierto: detección, regulación y confianza

Ninguna gran tecnológica ha lanzado todavía un sistema de marcado (watermarking) en los textos generados por IA que sea robusto, abierto y obligatorio. Google DeepMind presentó SynthID-Text en 2024, pero su adopción sigue siendo voluntaria. Sin estándar técnico, las universidades dependen exclusivamente de medidas analógicas como la supervisión presencial.

La Comisión Europea ha incluido el watermarking de contenidos generados por IA en el AI Act, en vigor escalonada desde agosto de 2024. La obligación afecta a proveedores de modelos a partir de 2026, pero la implementación efectiva en productos masivos como ChatGPT sigue siendo opaca. Hasta que el marcado sea fiable, la guerra contra el uso no declarado se libra en el aula.

Princeton no es un caso aislado, sino el primer movimiento visible de una institución de élite que admite la derrota del modelo anterior. Lo que aún no se sabe es si el resto del Ivy League seguirá su línea restrictiva, o si optarán por el camino integrador del MIT.

Arturo P.L. — Arturo P.L. cubre inteligencia artificial aplicada a la educación en StudyVerso. Ingeniero, ex-consultor y co-fundador de una startup EdTech. Analiza lanzamientos de modelos, políticas universitarias y adopción real de IA en aulas españolas y LatAm.

La decisión de Princeton no resuelve el problema de fondo: cómo evaluar competencias en un entorno donde la frontera entre estudiante y herramienta se ha vuelto porosa. La pregunta que queda abierta es si el resto del sistema universitario europeo esperará a que ocurra su propio escándalo para mover ficha, o si actuará antes de que el modelo de confianza académica se erosione más allá del punto de retorno.