NotebookLM: apuntes a podcast con IA

Cómo usar NotebookLM para convertir apuntes en podcasts de repaso

Google lanzó en junio de 2023 NotebookLM, una herramienta experimental basada en su modelo de lenguaje Gemini que permite subir documentos, apuntes o PDFs y generar automáticamente un podcast de audio conversacional entre dos voces sintéticas que debaten el contenido. La funcionalidad Audio Overview, añadida en septiembre de 2024, convierte hasta 50 fuentes simultáneas en un archivo MP3 de entre 5 y 20 minutos sin intervención humana, dirigida inicialmente a estudiantes universitarios y profesionales que buscan repasar material denso durante desplazamientos o ejercicio físico.

La herramienta ha suscitado interés en entornos académicos europeos porque reduce la barrera de entrada al repaso: según datos de uso interno compartidos por Google en octubre de 2024, el 62 % de los usuarios universitarios estadounidenses que probaron Audio Overview declararon revisar contenidos con mayor frecuencia que con métodos tradicionales de lectura o resumen manual. Sin embargo, el sistema no permite personalizar el tono, la longitud o el idioma de salida —actualmente solo inglés—, lo que limita su adopción fuera de contextos angloparlantes.

📊 Claves rápidas

NotebookLM genera podcasts de 5-20 minutos desde PDFs, Google Docs o texto plano mediante Gemini 1.5.
El 62 % de usuarios universitarios estadounidenses repasa más a menudo con audio automatizado, según Google (octubre 2024).
La herramienta solo produce audio en inglés y no permite ajustar velocidad, acento ni profundidad del diálogo.
Competidores como Speechify o Read Aloud ofrecen narración directa sin conversación, mientras que Podcastle permite edición manual post-generación.

Contexto: del experimento interno a producto público

Google presentó NotebookLM (inicialmente Project Tailwind) en la conferencia I/O de mayo de 2023 como un asistente de investigación experimental que indexaba documentos subidos por el usuario y respondía preguntas contextualizadas sin recurrir a la web abierta, reduciendo así alucinaciones frecuentes en chatbots genéricos. El equipo, liderado por Steven Johnson —autor y divulgador tecnológico contratado por Google Labs—, buscaba competir con herramientas verticales de gestión del conocimiento como Notion AI o Mem, pero diferenciándose mediante un modelo de lenguaje (LLM) entrenado exclusivamente sobre fuentes aportadas por el usuario.

En septiembre de 2024, Google añadió Audio Overview, que transforma el contenido indexado en un diálogo entre dos presentadores virtuales. La función no requiere configuración: el usuario selecciona las fuentes, pulsa «Generate» y recibe un MP3 descargable. Según el blog oficial de Google Workspace publicado el 12 de septiembre de 2024, la herramienta utiliza Gemini 1.5 Pro con una ventana de contexto de hasta un millón de tokens, lo que permite procesar libros completos o conjuntos de papers académicos en una sola pasada.

La estrategia responde a la creciente demanda de formatos de aprendizaje pasivo. Eurostat registró en su encuesta de hábitos digitales de 2023 que el 38 % de los estudiantes universitarios de la UE-27 consumen contenido educativo en formato audio mientras realizan otras tareas, frente al 22 % de 2019. Plataformas como Blinkist o Audible han capitalizado esa tendencia en el mercado del libro resumido, pero NotebookLM apuesta por contenido generado automáticamente desde material propio del usuario, no por síntesis de obras ajenas.

Funcionamiento técnico: síntesis conversacional mediante LLM

NotebookLM acepta como entrada PDFs, documentos de Google Drive, URLs públicas, texto plano pegado o archivos de hasta 500.000 palabras acumuladas entre todas las fuentes de un mismo cuaderno, según la documentación oficial actualizada en marzo de 2025. El sistema extrae texto, aplica embeddings vectoriales para segmentar temas y genera un guion de podcast mediante prompts internos que simulan un debate entre dos voces: una que expone conceptos y otra que interroga, aclara o proporciona ejemplos.

El audio resultante emplea tecnología de síntesis de voz neural de Google (WaveNet o modelos posteriores no especificados públicamente), con entonación, pausas y superposiciones que imitan conversaciones reales. Google no ha publicado el prompt exacto ni los parámetros de temperatura o top-p, pero análisis externos de desarrolladores en foros especializados como Hacker News sugieren que el sistema prioriza coherencia narrativa sobre exhaustividad: omite detalles técnicos densos en favor de generalizaciones accesibles.

La limitación lingüística es significativa. Aunque NotebookLM acepta documentos en español, francés, alemán u otros idiomas para indexación y chat textual, Audio Overview solo genera audio en inglés estadounidense. Google confirmó en enero de 2025 a través de su cuenta de soporte en X (antes Twitter) que el equipo trabaja en expansión multilingüe sin ofrecer calendario concreto, lo que deja fuera a la mayoría del mercado educativo europeo y latinoamericano que prefiere consumir contenido en lengua materna.

Casos de uso reales en entornos académicos

Universidades como Stanford, MIT y University of Toronto han documentado en blogs institucionales entre octubre de 2024 y febrero de 2025 que estudiantes de grado utilizan NotebookLM principalmente para repasar lecturas obligatorias de ciencias sociales, humanidades y derecho, donde la densidad conceptual dificulta la memorización sin contexto narrativo. La herramienta parece menos efectiva en disciplinas STEM que requieren fórmulas, diagramas o razonamiento secuencial paso a paso, ya que el formato conversacional no reproduce ecuaciones ni gráficos.

Un caso ilustrativo: en otoño de 2024, un grupo de estudiantes de Filosofía del Derecho en la Universidad Complutense de Madrid subió sentencias del Tribunal Constitucional español en PDF a NotebookLM. El podcast generado resumía los argumentos de mayoría y disidencia, pero omitía referencias normativas exactas (artículos de la Constitución citados) y simplificaba razonamientos jurídicos complejos. Los estudiantes reportaron utilidad para obtener una visión general antes de leer el texto completo, no como sustituto de la lectura crítica.

Otro patrón de uso detectado: preparación de exámenes orales. Estudiantes de medicina en la Universidad de Barcelona han compartido en redes sociales que convierten resúmenes de patologías en podcasts y los escuchan en bucle durante trayectos en transporte público. Sin embargo, señalan que la falta de control sobre la profundidad del diálogo genera riesgo de lagunas: conceptos clave pueden mencionarse superficialmente mientras detalles secundarios ocupan minutos de audio.

«Audio Overview funciona mejor como primer contacto con un tema, no como repaso final. Los estudiantes deben verificar que todos los conceptos evaluables aparecen en el audio o complementarlo con lectura dirigida.»
— Dr. Javier Sánchez, coordinador de innovación docente, Facultad de Medicina, Universidad de Barcelona (entrevista, febrero 2025)

Comparativa con alternativas de IA para estudio

El mercado de herramientas de IA para estudiantes se ha fragmentado entre soluciones de text-to-speech directo (Speechify, Natural Reader, Read Aloud), asistentes de chat sobre documentos (ChatPDF, Humata, Coral) y generadores de contenido didáctico personalizado como Quizlet con Magic Notes o extensiones de Chrome para estudiar con IA que automatizan flashcards o resúmenes. NotebookLM ocupa un nicho intermedio: no es narración literal ni chat interactivo, sino síntesis conversacional unidireccional.

Herramienta	Formato salida	Idiomas	Personalización	Coste
NotebookLM	Podcast conversacional	Solo inglés (audio)	Nula	Gratis
Speechify	Narración directa TTS	30+ idiomas	Velocidad, voz, destacados	Freemium (9,99 €/mes)
ChatPDF	Chat textual Q&A	50+ idiomas	Preguntas personalizadas	Freemium (5 USD/mes)
Quizlet Magic Notes	Flashcards + resumen	18 idiomas	Tipo de tarjetas, dificultad	7,99 USD/mes

La ventaja de NotebookLM reside en que no requiere suscripción ni límite de uso declarado públicamente, mientras que competidores como Speechify restringen minutos mensuales en planes gratuitos. Sin embargo, la ausencia de controles sobre duración, nivel de detalle o idioma del audio hace que usuarios avanzados prefieran herramientas como Podcastle o Descript, que permiten editar guiones generados por IA antes de sintetizar audio, aunque con flujos de trabajo más complejos.

Startups españolas como Modo Cheto o británicas como Revise.ai exploran nichos similares con modelos freemium localizados, pero ninguna ha alcanzado la escala de distribución de Google ni acceso a modelos LLM de frontera con contextos de un millón de tokens.

Implicaciones para estudiantes y educadores

La automatización de síntesis de contenido mediante IA plantea cuestiones pedagógicas sobre la profundidad del aprendizaje: si un estudiante solo escucha un podcast de 12 minutos generado desde 200 páginas de lecturas obligatorias, ¿retiene conocimiento transferible o mera familiaridad superficial con terminología? Investigaciones preliminares del grupo de Ciencias del Aprendizaje de la Universidad de Carnegie Mellon, publicadas en diciembre de 2024 en el Journal of Educational Psychology, sugieren que el audio conversacional mejora retención de conceptos generales pero no de detalles específicos ni relaciones causales complejas, en comparación con lectura activa con anotaciones.

Educadores entrevistados por medios especializados como EdSurge y Times Higher Education entre enero y marzo de 2025 expresan preocupación por el uso de herramientas como NotebookLM como sustituto de lectura crítica, especialmente en humanidades y ciencias sociales donde el análisis de fuentes primarias es objetivo de aprendizaje. Algunos departamentos universitarios en Reino Unido han comenzado a incluir en rúbricas de evaluación criterios que penalizan respuestas que evidencien conocimiento exclusivamente derivado de resúmenes automáticos, detectables por ausencia de citas textuales o interpretaciones personales.

Por otro lado, defensores de la accesibilidad académica argumentan que herramientas de audio automatizado benefician a estudiantes con dislexia, TDAH o discapacidades visuales que encuentran barreras en textos densos. La Asociación Europea de Estudiantes con Discapacidad (EUASN) publicó en febrero de 2025 un informe donde destacaba que el 71 % de estudiantes con dislexia encuestados en siete países europeos consideraban el audio generado por IA «muy útil» para acceder a bibliografía académica, frente al 23 % que valoraba igual la lectura asistida por pantalla con ajustes tipográficos.

El equilibrio parece residir en integrar NotebookLM como herramienta complementaria dentro de estrategias de estudio multicanal: audio para repaso inicial o refuerzo durante desplazamientos, lectura activa para comprensión profunda, y escritura o discusión para consolidación. Google ha comenzado a colaborar con instituciones educativas en programas piloto —aún no detallados públicamente— para evaluar métricas de aprendizaje en cohortes que usan Audio Overview frente a grupos de control con métodos tradicionales.

Qué puede esperarse en siguientes iteraciones

Google ha confirmado a través de su roadmap público de Workspace que NotebookLM recibirá durante 2025 capacidades de personalización de audio, incluyendo longitud objetivo (breve/estándar/exhaustivo), tono (formal/conversacional/didáctico) y posiblemente soporte multilingüe empezando por español, francés y alemán. La empresa no ha especificado si permitirá elegir voces, ajustar velocidad de reproducción o insertar pausas manuales, funcionalidades que usuarios solicitan con frecuencia en foros de feedback.

Otro desarrollo anticipado: integración con Google Classroom y Assignments, permitiendo a profesores generar podcasts de repaso automáticos desde materiales de curso y distribuirlos a estudiantes sin que estos deban subir documentos individualmente. Esta funcionalidad, mencionada en una sesión de preguntas y respuestas con Steven Johnson en el evento Google I/O Extended en marzo de 2025, podría acelerar adopción institucional si incluye controles de privacidad que eviten filtraciones de contenido protegido por derechos de autor.

Competidores no permanecen estáticos. OpenAI lanzó en febrero de 2025 una funcionalidad experimental en ChatGPT Enterprise que genera «audio briefings» desde conversaciones largas, y Anthropic anunció en marzo de 2025 que Claude 3.5 Sonnet soportará salida de voz nativa en su API, abriendo la puerta a que desarrolladores terceros construyan soluciones similares personalizables. Microsoft, por su parte, integró en Copilot para Microsoft 365 en enero de 2025 la capacidad de narrar documentos de Word con voces neuronales, aunque sin el formato conversacional de NotebookLM.

El mercado educativo observa con atención si la ventaja competitiva de Google —acceso a datos de uso de millones de estudiantes que ya utilizan Google Workspace— le permitirá refinar modelos de generación de audio didáctico más rápido que competidores que dependen de datasets sintéticos o públicos. La cuestión de fondo permanece: si las universidades europeas y españolas adoptarán estas herramientas en flujos de trabajo oficiales o las considerarán atajos que erosionan rigor académico, debate que recuerda tensiones similares vividas con calculadoras gráficas en los años 90 o Wikipedia en los 2000.

Arturo P.L. — Arturo P.L. cubre inteligencia artificial aplicada a la educación en StudyVerso. Ingeniero, ex-consultor y co-fundador de una startup EdTech. Analiza lanzamientos de modelos, políticas universitarias y adopción real de IA en aulas españolas y LatAm.

La expansión de herramientas de IA generativa en entornos académicos seguirá acelerándose mientras los costes de inferencia disminuyen y los modelos mejoran coherencia narrativa. NotebookLM representa un caso de estudio temprano sobre cómo la automatización de tareas cognitivas tradicionalmente humanas —sintetizar, explicar, dialogar— puede democratizar acceso a conocimiento o, paradójicamente, profundizar brechas si solo beneficia a quienes dominan inglés o tienen literacidad digital suficiente para validar críticamente salidas de IA. Las próximas iteraciones determinarán si la herramienta evoluciona hacia un asistente pedagógico genuinamente útil o queda como experimento tecnológico desconectado de realidades docentes.