Nuestra voz nos define. No es sólo un instrumento para comunicar palabras: transmite nuestra personalidad, nuestra esencia. Un chiste dicho con nuestra propia entonación tiene un significado diferente al de una voz sintética. Un susurro "Te amo" con nuestro timbre único se transmite de una manera que ninguna voz robótica puede replicar.
Para los pacientes con esclerosis lateral amiotrófica (ELA), perder la voz significa perder una parte fundamental de su identidad. Esta enfermedad neurodegenerativa priva progresivamente a los afectados de habilidades motoras, incluido el habla. Los sistemas de comunicación aumentativa les permiten seguir expresándose, pero a través de voces genéricas que nada tienen que ver con quiénes eran.
En el grupo de investigación VertekLit, perteneciente al Instituto Valenciano de Investigación en Inteligencia Artificial (VRAIN) de la Universidad Política de Valencia, decidimos cambiar eso. Nuestro proyecto logró clonar la voz de Fran Vivo, un paciente con ELA, devolviéndole algo que parecía perdido para siempre.
Más allá de lo funcional
Este artículo no pretendía resolver un problema estrictamente técnico. Los pacientes de ELA ya cuentan con sistemas que les permiten comunicarse mediante texto o voces sintéticas predefinidas. Lo que buscábamos era diferente: recuperar la dignidad.
Cuando Fran puede volver a "hablar" con su voz, su prosodia, su tono, sus peculiaridades, algo cambia profundamente en él y en su familia. No es una mejora práctica en sentido estricto, pero sí una enorme contribución a la calidad de vida emocional de los afectados. Es la capacidad de volver a escuchar a una persona que conoció, recordándola en algo tan personal como su forma de hablar.
El verdadero desafío no está en la tecnología en sí, sino en adaptarla a los recursos disponibles. Porque cuando alguien pierde la voz, las grabaciones que conserva suelen ser escasas y de calidad variable: notas de audio en el móvil, vídeos familiares, tal vez un mensaje guardado accidentalmente.
Pon la emoción en palabras
El proyecto incluyó la identificación de las mejores herramientas y modelos disponibles y la implementación de entrenamiento específico que permita no sólo mantener las características originales de la voz, sino también inyectar elementos de emoción y expresividad.
Los sistemas actuales de clonación de voz son capaces de replicar el tono y el timbre de una persona con una fidelidad notable. Sin embargo, cuando hablamos no solo emitimos una señal sonora característica: también tenemos un cierto ritmo, utilizamos muletillas, hacemos pausas en determinados momentos y modulamos las frases de maneras que nos identifican tanto como nuestra propia voz. Esta dimensión expresiva, lo que podríamos llamar nuestra "huella prosódica", es exactamente lo que queríamos capturar.
Para conseguirlo utilizamos modelos de inteligencia artificial que analizan en profundidad las imágenes disponibles del paciente. Estos modelos seleccionan patrones de entonación, variaciones dialectales, cadencias y otras características que definen su forma única de expresarse. El resultado es un perfil detallado que va mucho más allá de las características puramente acústicas de la voz.
Con este perfil transformamos cualquier texto que queramos generar antes de pasarlo al sistema de clonación. En lugar de sintetizar directamente palabras escritas, las adaptamos para reflejar cómo las diría realmente esa persona: con sus pausas, sus acentos y sus giros distintivos. La voz así generada no sólo suena como la del paciente, sino que también habla como él.
Nuestro objetivo es crear una plataforma accesible que permita, sin detalles técnicos, entrenar el sistema con las grabaciones disponibles y generar nuevas grabaciones de voz. Queremos que tanto el paciente como sus familiares puedan producir mensajes en un entorno de máxima privacidad, haciendo de esta tecnología una incorporación humana a los sistemas de comunicación actuales.
Un puente entre el mundo y las personas
Vivimos en un momento crucial para la inteligencia artificial. Desafortunadamente, recibe más atención por sus posibles abusos que por los beneficios que ya proporciona en áreas como la salud o la calidad de vida. Mucho se habla de su regulación, y es importante distinguir: lo que hay que regular son sus aplicaciones, no la investigación o exploración de sus posibilidades.
Para quienes investigamos en este campo, el objetivo de la inteligencia artificial es utilizarla como un puente, como un mediador inteligente entre la complejidad del mundo y las personas, especialmente aquellas con necesidades especiales.
Este proyecto se encuentra ahora en proceso de ampliación. Estamos trabajando para que esté disponible a través de asociaciones y organizaciones, permitiendo que otras personas afectadas puedan realizar el proceso de forma independiente. El objetivo es considerar más opciones, no sólo para los pacientes de ELA, sino para todas las personas cuya comunicación está comprometida.
Utilizar la inteligencia artificial como elemento que nos ayuda, nos complementa y se adapta a las características únicas de cada individuo. Después de todo, eso es lo que buscamos.
0 Comentarios