Una estudiante de la ETSIT UPM, investigadora del IPTC, gana el premio a la mejor presentación de su tesis en 3 minutos en la Red Temática en Tecnologías del Habla

18/11/2025

La estudiante María Pilar Daza Llín, estudiante del programa de Doctorado en Tecnologías y Sistemas de Comunicaciones e investigadora del IPTC y egresada del Grado en Ingeniería y Sistemas de Datos en la ETSIT-UPM, ha ganado el premio a la mejor presentación en el concurso “Tu tesis en tres minutos”. La competición se celebró en la Escuela de Otoño organizada por el proyecto europeo CRYSTAL y la Red Temática en Tecnologías del Habla. El jurado destacó la capacidad de los participantes para comunicar su investigación de forma clara y concisa. Este reconocimiento pone en valor la excelencia en la divulgación científica y técnica de los jóvenes investigadores.

La doctoranda e investigadora del IPTC aborda en su aborda el problema de encontrar grandes bases de datos en idioma diferentes al inglés para el entrenamiento de modelos de conversión texto a voz. Y, una vez que son entrenados estos sistemas, cómo determinar cuándo termina el entrenamiento si las métricas objetivas y las funciones de pérdidas no convergen ni se alinean con los resultados de las pruebas subjetivas.

Para afrontar este problema se plantean tres focos: los modelos preentrenados, el tiempo de entrenamiento y la selección de los datos. El modelo es proporcionado por un proveedor, por lo que, a pesar de querer conseguir un sistema con modelo agnóstico, no se le ha dado prioridad. Para reducir el tiempo de entrenamiento, se propone un esquema de entrada y salida múltiple que determina qué funciones de pérdida entran en juego en cada momento. La tesis busca formalizar esta idea mediante aprendizaje por refuerzo para fomentar la creación de un metaaprendedor que gestione estas funciones de pérdida de manera autónoma. Por último, se quiere estudiar una forma más concreta de seleccionar los datos, además de cuestionarse si las longitudes predeterminadas son las mejores, todo ello con el objetivo de completar el espacio acústico del locutor con el menor audio posible.

En suma, la tesis premiada busca desarrollar un sistema eficiente que sintetice voces de buena calidad en el dominio de los datos escasos con estrategias avanzadas para la generación de nuevas bases de datos que puedan ayudar a la detección de enfermedades y la mejora de los agentes conversacionales.

María Pilar Daza Llím: LinkedIn

GAPS (Grupo de Aplicaciones del Procesado de Señal) / Signal Processing Aplications Group

LinkedIn: https://www.linkedin.com/company/iptc-upm/

For more information: www.iptc.upm.es

María Pilar Daza Llím:  LinkedIn

Red Temática en Tecnologías del Habla (RTTH)

GAPS (Grupo de Aplicaciones del Procesado de Señal)

LinkedIn: https://www.linkedin.com/company/iptc-upm/

For more information: www.iptc.upm.es

Share this: