HABLA CON LA VOZ DE OTRO, QUIZÁ CON LA DE ALGUIEN FAMOSO

La IA generativa y el sonido digital forman una potente combinación multidimensional que va a crecer enormemente, tanto para lo bueno como para lo malo

Interfaz de voces sintetizadas con inteligencia artificial (VOICEMOD).

ADOLFO PLASENCIA @adolfoplasencia

29 de marzo, 2023

Desde hace años, la industria de las tecnologías del sonido digital nos ha tenido acostumbrados a sucesivas novedades como parte de la industria de la música y la TV. Una de las últimas modas sonoras ahora mismo que muchos creen nuevo: el podcast. Ya lo describí en 2006 en un artículo de la revista Valencia 7. Lo llamé la radio asincrónica. Hoy la del podcast forma parte de las nuevas modas creadas para aumentar el consumo digital.

Las plataformas de radio y los canales de podcast forman parte del consumo intensivo digital asincrónico de contenido sonoro. Tengo mi propio canal de podcast de mis programas de radio así que conozco el tema. Para mí son como una extensión digital de los medios de comunicación tradicionales o mass media con distinta línea de tiempo en su difusión.

Hay toda una antigua tradición del uso esencial del sonido de la voz humana en teatro, cine y radio. Pero un caso histórico en la historia de la ficción sonora en que se consiguió engañar a la audiencia, haciéndo pasar una ficción por realidad. Fue la adaptación por Orson Welles en 1938 de la novela de ciencia ficción La guerra de los mundos escrita por H. G. Wells –publicada en 1898,– que describe una invasión marciana a la Tierra. Welles, que era un genio, cambió algunos aspectos del argumento y el formato. Y la emitió como un noticiario urgente.

Aunque hubo un aviso al principio sobre su carácter ficticio, muchos oyentes se incorporaron con la narración ya iniciada, por lo que se perdieron el aviso y creyeron que era real. Esto provocó escenas de pánico entre ciudadanos de Nueva Jersey y Nueva York, que creyeron que se estaba produciendo una verdadera invasión alienígena de la Tierra. La ingenuidad de un público que aún no conocía entonces la TV contribuyó al éxito de la propuesta de Welles que finalmente tuvo que pedir disculpas públicamente a los radioyentes.

Aquello que sucedió hace ahora ochenta y cinco años fue una excepción. Pero en aquellos tiempos aún se asociaba masivamente lo que emitían los mass media (radio, TV y prensa) con lo que había ocurrido verdaderamente en la realidad. Eso no quiere decir que no se inventara en los medios.

Con la llegada del mundo digital e Internet la relación de interacción entre la gente a gran escala ha cambiado. En sus inicios Internet tenía el mismo carácter de veracidad de los mass media. Pero hoy en día, en tiempos de redes sociales, noticias falsas (fake news) y usos malintencionados del internet social, la red y el modo online se han convertido, tanto en el mayor milagro de la comunicación e interacción humana para gente de toda edad y cultura, como en más grande instrumento de engaño, fraude y estafa que nunca tuvo la humanidad. La ingenuidad de la audiencia no hace sino aumentar.

Por eso, las estafas por Internet representan casi el 90% del total de los delitos de raíz digital. Sin embargo, no todos los engaños con la identidad tienen ánimo delictivo. Muchos de ellos forman parte de los aspectos lúdicos de la red y el mundo de los ciberjuegos digitales, y juegan con las posibilidades que da lo digital de crear nuevas o diversas identidades o modificarlas. Hoy me centraré en las tecnologías digitales sonoras relacionadas con la voz humana.

Orson Welles, durante la retransmisión de «La guerra de los mundos».

De la simulación o el engaño

En el mundo la música de alta producción las tecnologías digitales de sonido de los voice makers (creadores de voces); los vocoder (de voice coder, «codificador de voz») o sintetizadores de voz han sido técnicas que desde su inicio se han usado a gran escala en el cine o en la música incluso antes de la era digital.

Citaré algún clásico. Mucho antes de la era del PC, en 1970, los pioneros de la música electrónica Wendy Carlos y Robert Moog desarrollaron uno de los primeros vocoders verdaderamente musicales que fue utilizado en grabaciones. Por ejemplo, en la banda sonora de la película La naranja mecánica, dirigida por Stanley Kubrick, donde el vocoder «canta» la parte vocal de la Novena Sinfonía de Beethoven. Posteriormente fue usado por Alan Parsons Project, Kraftwerk, o músicos como Herbie Hancock, Stevie Wonder (en I just called to say I love you), o Phil Collins, quien usó su efecto para acentuar ciertas palabras a las que dar un efecto dramático en su canción In the Air Tonight. La banda de rock británica Queen lo uso en su mítica canción Radio Ga Ga. Y más recientemente, la cantante Britney Spears lo uso en su canción It Should Be Easy, perteneciente a su octavo álbum Britney Jean.

Estos casos son de uso musical y ampliación del espectro creativo sonoro, pero también estas tecnologías se han usado para engañar sobre la tesitura o para disimular defectos al cantar. Por ejemplo, el software Auto-Tune, un procesador de audio creado por Antares Audio Technologies para uso vocal e instrumental que ha sido y es usado para enmascarar inexactitudes o errores, y que permite a muchos artistas producir grabaciones con afinación artificialmente precisa. El Auto-tune que la cantante Cher ya usó en 1998, lo ha puesto ahora de moda, entre otros, Rosalía desde su disco Motomami y la gente del hip-hop. Esta tecnología no se permite en Eurovisión.

Hasta aquí las tecnologías de sonido digital sobre todo iban a la producción musical, pero ya han llegando a también al uso de gammers o participantes y usuarios de videojuegos que necesitan dobles digitales para moverse por los metaversos de los distintos juegos. El mercado se ha llenado de aplicaciones para dar a tu avatar el aspecto volumétrico y movimiento fluido más hiperrealista posible. Ahora se completa con la voz sintética.

El caso de la chica perfecta del proyecto Siren es paradigmático. O los de las cantantes virtuales inexistentes como Hatsune Miku, o  Luo Tianyi que, en realidad, son encarnaciones digitales de un software de voz capaz de cantar como si fueran una persona. Las llamadas falsificaciones profundas (deepfakes) en forma de vídeo musical se van a extender a más y más ámbitos de uso de la voz humana.

La cantante virtual Hatsune Mik.

La irrupción de la IA

Aunque se les llama inteligencia artificial en realidad los MML (grandes modelos lingüísticos) son modelos de software de machine learning de uso lingüístico, en forma de red neuronal con muchísimos parámetros (normalmente miles de millones o más), entrenados con ingentes cantidades de texto (centenares de miles de millones de palabras) sin etiquetar, mediante aprendizaje auto-supervisado.

Surgieron hacia 2018 y funcionan bien en una amplia variedad de tareas pero han cambiado el enfoque de la investigación del procesamiento del lenguaje natural, alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas concretas. Los problemas con la autoría con los contenidos del entrenamiento usados sin pedir permiso ya están en muchos tribunales.

Con todo, es enorme el súbito impacto de los Transformers tipo GPT (Generative Pre-trained Transformer, o Transformador Generativo Pre-entrenado) generado a raíz de poner masivamente al alcance del público el Chat-GPT-3 de lenguaje conversacional, el 4 de diciembre de 2022 por la empresa Open AI, que consiguió un millón de usuarios en cinco días. Ello causó una revolución que aún está en plena explosión. No solo sirve al lenguaje natural escrito.

Esta es una tecnología transversal que va desde la generación de texto o gráficos. Y está borrando las los límites digitales de paso de texto a voz y de voz a texto; que es como decir entre los universos del texto, la imagen y el sonido, indistintamente.

El paso o conversión de formas de conocimiento de cualquiera de esos universos entre sí va a hacerse rápida y sorprendentemente gracias a esta tecnología de machine learning combinada con aprendizaje profundo que, aunque no lo es propiamente, se ha generalizado denominarlas como tecnologías de inteligencia artificial. Esta convergencia tecnológica y la súbita explosión de estos modelos de MML y GPT, ha puesto a trabajar en ello, al tiempo, a multitud de equipos de desarrollo. Empiezan a verse múltiples resultados y no solo de grandes empresas tecnológicas, sino también de pequeños e innovadores grupos de tecnólogos.

Generar y clonar voces humanas

Pongo un ejemplo aparecido hace pocos días en un foro de tecnología. Dos animosos desarrolladores de software publicaron un post que decía literalmente: «Hola, somos Mahmoud y Hammad, cofundadores de Play.ht, una plataforma de síntesis de texto a voz. Estamos construyendo grandes Modelos de voz para todos los idiomas enfocados en la expresividad y el control de la voz…».

«Hoy, estamos encantados de compartir el acceso beta a nuestro último Modelo (LLM). Se llama Parrot. Es capaz de clonar cualquier voz humana —o no humana—, con unos pocos segundos de audio y generar un habla expresiva y realista a partir de texto». Según sus creadores, el modelo también capta bien los acentos y es capaz de hablar con todos los acentos ingleses. Incluso, pueden hacer que hablantes no ingleses hablen inglés, conservando su acento original. Cualquiera —dicen—, puede subir un clip de sonido digital hablado por una persona que no hable inglés y probarlo.

Estos desarrolladores afirman que los actuales modelos de conversión de texto a voz carecen de expresividad, control o direccionalidad de la voz; y no consiguen que una voz hable de una forma específica o enfatizando una palabra o partes del discurso. Su objetivo a medio plazo es solucionar esto para todos los idiomas. Y aseguran que como las voces generadas por su tecnología se basan en LLM, pueden expresar emociones en función del contexto del texto.

Su tecnología Parrot, ofrece dos tipos de clonación de voz; una de alta fidelidad y otra inmediata. La clonación de voz de alta fidelidad requiere 20 minutos de datos de audio para crear una voz expresiva con todo el acento en la voz de destino y todos sus matices. Pero su espectacular clonación cero o inmediata, clona la voz con sólo unos 20 segundos de audio y captura la mayor parte del acento y el tono. Así que podrás crear audiolibros, programas de radio, piezas sonoras, podcasts, o canciones completas con una voz conocida reconocible sin que su dueño siquiera lo sepa ni intervenga usando solo 20 segundos de su voz. Va a ser tremendo. Y las aplicaciones en política están al caer.

Y solo es un ejemplo. Así que sobre los usos alegales o perjudiciales de estas tecnologías también se va a hablar mucho próximamente. Hay usuarios a los que les encanta intentar engañar por diversión. Pero otros, la usan para cometer fraudes y aprovechar la sorprendentemente ingenuidad que muestran la mayoría de usuarios en la red.

Los hermanos Bosch, fundadores de Voicemod: Fernando (izquierda), Jaime (centro) y Juan (derecha).

Construir identidad sonora digital

Hay una empresa valenciana en la vanguardia mundial de tecnologías digitales de sonido muy conocida en el mercado mundial del gaming, los ciberjuegos y redes sociales. Se llama Voicemod, fue fundada por tres emprendedores valencianos, los hermanos Jaime, Fernando y Juan Bosch. Es muy admirada por sus potentes aplicaciones para generar Identidad Sonora.

Mediante sus tecnologías, los usuarios de juegos como League of Legends, Warcraft, Overwatch, Rust o Fortnite, pueden dotar de una voz sintética pero creíble a sus avatars o dobles digitales con los que participan en los juegos en plataformas como Roblox, VRChat, Discord; pero también pueden modificarse la voz o crearse una nueva para sus mensajes en WhatsApp o en las ciberreuniones con aplicaciones como Zoom o Google Meet, etc.

La empresa Voicemod, con un potente equipo de I+D y desarrolladores, cuenta con más de cien ingenieros y más de 150 trabajadores, trabajando en más de 20 países, entre ellos en China, donde el gigante tecnológico Tencent usa y distribuye su tecnología. Sus aplicaciones han sido descargadas más de 50 millones de veces.

Video Text-A-Canción, generador viral de canciones meme de Voicemod.

A finales de 2022, Voicemod decidió incorporarse a la competitiva carrera de la Inteligencia artificial generativa aplicada al sonido digital. Su vía fue a través de la adquisición de la empresa catalana Voctro Labs, una spin-off del Grupo de Tecnología Musical de la Universitat Pompeu Fabra especializada en tecnología musical e inteligencia artificial. Conjuntamente, lanzaron sus primeras voces sintetizadas mediante IA a finales del año pasado y tuvieron un gran éxito entre los usuarios. Esa tecnología sonora que han desarrollado permite cantar en tiempo real con la voz de otro cantante.

También están extendiendo su mercado hacia EE.UU. Para ello han firmado acuerdos con la Warner para incorporar voces y sonidos de franquicias de películas o las series más populares. Para ello ya poseen los derechos para Rick y Morty o Batman, y otros personajes del mercado de superhéroes. En el mismo sentido que la citada ht van trabajar en su plataforma también con contenido sonoro creado por usuarios.  

La llamada inteligencia artificial generativa y el sonido digital forman una potente combinación multidimensional que nace ahora y va a crecer enormemente, tanto para lo bueno como para lo malo.

No Comments Yet

Leave a Reply

Your email address will not be published.