La IA generativa y el sonido digital forman una potente combinación multidimensional que va a crecer enormemente, tanto para lo bueno como para lo malo

Inter­faz de voces sin­te­ti­za­das con inte­li­gen­cia arti­fi­cial (VOICEMOD).

ADOLFO PLASENCIA @adolfoplasencia

29 de mar­zo, 2023

Des­de hace años, la indus­tria de las tec­no­lo­gías del soni­do digi­tal nos ha teni­do acos­tum­bra­dos a suce­si­vas nove­da­des como par­te de la indus­tria de la músi­ca y la TV. Una de las últi­mas modas sono­ras aho­ra mis­mo que muchos creen nue­vo: el pod­cast. Ya lo des­cri­bí en 2006 en un artícu­lo de la revis­ta Valen­cia 7. Lo lla­mé la radio asin­cró­ni­ca. Hoy la del pod­cast for­ma par­te de las nue­vas modas crea­das para aumen­tar el con­su­mo digi­tal.

Las pla­ta­for­mas de radio y los cana­les de pod­cast for­man par­te del con­su­mo inten­si­vo digi­tal asin­cró­ni­co de con­te­ni­do sono­ro. Ten­go mi pro­pio canal de pod­cast de mis pro­gra­mas de radio así que conoz­co el tema. Para mí son como una exten­sión digi­tal de los medios de comu­ni­ca­ción tra­di­cio­na­les o mass media con dis­tin­ta línea de tiem­po en su difu­sión.

Hay toda una anti­gua tra­di­ción del uso esen­cial del soni­do de la voz huma­na en tea­tro, cine y radio. Pero un caso his­tó­ri­co en la his­to­ria de la fic­ción sono­ra en que se con­si­guió enga­ñar a la audien­cia, hacién­do pasar una fic­ción por reali­dad. Fue la adap­ta­ción por Orson Welles en 1938 de la nove­la de cien­cia fic­ción La gue­rra de los mun­dos escri­ta por H. G. Wells –publi­ca­da en 1898,– que des­cri­be una inva­sión mar­cia­na a la Tie­rra. Welles, que era un genio, cam­bió algu­nos aspec­tos del argu­men­to y el for­ma­to. Y la emi­tió como un noti­cia­rio urgen­te.

Aun­que hubo un avi­so al prin­ci­pio sobre su carác­ter fic­ti­cio, muchos oyen­tes se incor­po­ra­ron con la narra­ción ya ini­cia­da, por lo que se per­die­ron el avi­so y cre­ye­ron que era real. Esto pro­vo­có esce­nas de páni­co entre ciu­da­da­nos de Nue­va Jer­sey y Nue­va York, que cre­ye­ron que se esta­ba pro­du­cien­do una ver­da­de­ra inva­sión alie­ní­ge­na de la Tie­rra. La inge­nui­dad de un públi­co que aún no cono­cía enton­ces la TV con­tri­bu­yó al éxi­to de la pro­pues­ta de Welles que final­men­te tuvo que pedir dis­cul­pas públi­ca­men­te a los radio­yen­tes.

Aque­llo que suce­dió hace aho­ra ochen­ta y cin­co años fue una excep­ción. Pero en aque­llos tiem­pos aún se aso­cia­ba masi­va­men­te lo que emi­tían los mass media (radio, TV y pren­sa) con lo que había ocu­rri­do ver­da­de­ra­men­te en la reali­dad. Eso no quie­re decir que no se inven­ta­ra en los medios.

Con la lle­ga­da del mun­do digi­tal e Inter­net la rela­ción de inter­ac­ción entre la gen­te a gran esca­la ha cam­bia­do. En sus ini­cios Inter­net tenía el mis­mo carác­ter de vera­ci­dad de los mass media. Pero hoy en día, en tiem­pos de redes socia­les, noti­cias fal­sas (fake news) y usos malin­ten­cio­na­dos del inter­net social, la red y el modo onli­ne se han con­ver­ti­do, tan­to en el mayor mila­gro de la comu­ni­ca­ción e inter­ac­ción huma­na para gen­te de toda edad y cul­tu­ra, como en más gran­de ins­tru­men­to de enga­ño, frau­de y esta­fa que nun­ca tuvo la huma­ni­dad. La inge­nui­dad de la audien­cia no hace sino aumen­tar.

Por eso, las esta­fas por Inter­net repre­sen­tan casi el 90% del total de los deli­tos de raíz digi­tal. Sin embar­go, no todos los enga­ños con la iden­ti­dad tie­nen áni­mo delic­ti­vo. Muchos de ellos for­man par­te de los aspec­tos lúdi­cos de la red y el mun­do de los ciber­jue­gos digi­ta­les, y jue­gan con las posi­bi­li­da­des que da lo digi­tal de crear nue­vas o diver­sas iden­ti­da­des o modi­fi­car­las. Hoy me cen­tra­ré en las tec­no­lo­gías digi­ta­les sono­ras rela­cio­na­das con la voz huma­na.

Orson Welles, duran­te la retrans­mi­sión de «La gue­rra de los mun­dos».

De la simulación o el engaño

En el mun­do la músi­ca de alta pro­duc­ción las tec­no­lo­gías digi­ta­les de soni­do de los voi­ce makers (crea­do­res de voces); los voco­der (de voi­ce coder, «codi­fi­ca­dor de voz») o sin­te­ti­za­do­res de voz han sido téc­ni­cas que des­de su ini­cio se han usa­do a gran esca­la en el cine o en la músi­ca inclu­so antes de la era digi­tal.

Cita­ré algún clá­si­co. Mucho antes de la era del PC, en 1970, los pio­ne­ros de la músi­ca elec­tró­ni­ca Wendy Car­los y Robert Moog desa­rro­lla­ron uno de los pri­me­ros voco­ders ver­da­de­ra­men­te musi­ca­les que fue uti­li­za­do en gra­ba­cio­nes. Por ejem­plo, en la ban­da sono­ra de la pelí­cu­la La naran­ja mecá­ni­ca, diri­gi­da por Stan­ley Kubrick, don­de el voco­der «can­ta» la par­te vocal de la Nove­na Sin­fo­nía de Beetho­ven. Pos­te­rior­men­te fue usa­do por Alan Par­sons Pro­ject, Kraft­werk, o músi­cos como Her­bie Han­cock, Ste­vie Won­der (en I just called to say I love you), o Phil Collins, quien usó su efec­to para acen­tuar cier­tas pala­bras a las que dar un efec­to dra­má­ti­co en su can­ción In the Air Tonight. La ban­da de rock bri­tá­ni­ca Queen lo uso en su míti­ca can­ción Radio Ga Ga. Y más recien­te­men­te, la can­tan­te Brit­ney Spears lo uso en su can­ción It Should Be Easy, per­te­ne­cien­te a su octa­vo álbum Brit­ney Jean.

Estos casos son de uso musi­cal y amplia­ción del espec­tro crea­ti­vo sono­ro, pero tam­bién estas tec­no­lo­gías se han usa­do para enga­ñar sobre la tesi­tu­ra o para disi­mu­lar defec­tos al can­tar. Por ejem­plo, el soft­wa­re Auto-Tune, un pro­ce­sa­dor de audio crea­do por Anta­res Audio Tech­no­lo­gies para uso vocal e ins­tru­men­tal que ha sido y es usa­do para enmas­ca­rar inexac­ti­tu­des o erro­res, y que per­mi­te a muchos artis­tas pro­du­cir gra­ba­cio­nes con afi­na­ción arti­fi­cial­men­te pre­ci­sa. El Auto-tune que la can­tan­te Cher ya usó en 1998, lo ha pues­to aho­ra de moda, entre otros, Rosa­lía des­de su dis­co Moto­ma­mi y la gen­te del hip-hop. Esta tec­no­lo­gía no se per­mi­te en Euro­vi­sión.

Has­ta aquí las tec­no­lo­gías de soni­do digi­tal sobre todo iban a la pro­duc­ción musi­cal, pero ya han lle­gan­do a tam­bién al uso de gam­mers o par­ti­ci­pan­tes y usua­rios de video­jue­gos que nece­si­tan dobles digi­ta­les para mover­se por los meta­ver­sos de los dis­tin­tos jue­gos. El mer­ca­do se ha lle­na­do de apli­ca­cio­nes para dar a tu ava­tar el aspec­to volu­mé­tri­co y movi­mien­to flui­do más hiper­rea­lis­ta posi­ble. Aho­ra se com­ple­ta con la voz sin­té­ti­ca.

El caso de la chi­ca per­fec­ta del pro­yec­to Siren es para­dig­má­ti­co. O los de las can­tan­tes vir­tua­les inexis­ten­tes como Hatsu­ne Miku, o  Luo Tian­yi que, en reali­dad, son encar­na­cio­nes digi­ta­les de un soft­wa­re de voz capaz de can­tar como si fue­ran una per­so­na. Las lla­ma­das fal­si­fi­ca­cio­nes pro­fun­das (deep­fa­kes) en for­ma de vídeo musi­cal se van a exten­der a más y más ámbi­tos de uso de la voz huma­na.

La can­tan­te vir­tual Hatsu­ne Mik.

La irrupción de la IA

Aun­que se les lla­ma inte­li­gen­cia arti­fi­cial en reali­dad los MML (gran­des mode­los lin­güís­ti­cos) son mode­los de soft­wa­re de machi­ne lear­ning de uso lin­güís­ti­co, en for­ma de red neu­ro­nal con muchí­si­mos pará­me­tros (nor­mal­men­te miles de millo­nes o más), entre­na­dos con ingen­tes can­ti­da­des de tex­to (cen­te­na­res de miles de millo­nes de pala­bras) sin eti­que­tar, median­te apren­di­za­je auto-supe­r­­vi­­sa­­do.

Sur­gie­ron hacia 2018 y fun­cio­nan bien en una amplia varie­dad de tareas pero han cam­bia­do el enfo­que de la inves­ti­ga­ción del pro­ce­sa­mien­to del len­gua­je natu­ral, ale­ján­do­se del para­dig­ma ante­rior de entre­nar mode­los super­vi­sa­dos espe­cia­li­za­dos para tareas con­cre­tas. Los pro­ble­mas con la auto­ría con los con­te­ni­dos del entre­na­mien­to usa­dos sin pedir per­mi­so ya están en muchos tri­bu­na­les.

Con todo, es enor­me el súbi­to impac­to de los Trans­for­mers tipo GPT (Gene­ra­ti­ve Pre-trai­­ned Trans­for­mer, o Trans­for­ma­dor Gene­ra­ti­vo Pre-entre­­na­­do) gene­ra­do a raíz de poner masi­va­men­te al alcan­ce del públi­co el Chat-GPT‑3 de len­gua­je con­ver­sa­cio­nal, el 4 de diciem­bre de 2022 por la empre­sa Open AI, que con­si­guió un millón de usua­rios en cin­co días. Ello cau­só una revo­lu­ción que aún está en ple­na explo­sión. No solo sir­ve al len­gua­je natu­ral escri­to.

Esta es una tec­no­lo­gía trans­ver­sal que va des­de la gene­ra­ción de tex­to o grá­fi­cos. Y está borran­do las los lími­tes digi­ta­les de paso de tex­to a voz y de voz a tex­to; que es como decir entre los uni­ver­sos del tex­to, la ima­gen y el soni­do, indis­tin­ta­men­te.

El paso o con­ver­sión de for­mas de cono­ci­mien­to de cual­quie­ra de esos uni­ver­sos entre sí va a hacer­se rápi­da y sor­pren­den­te­men­te gra­cias a esta tec­no­lo­gía de machi­ne lear­ning com­bi­na­da con apren­di­za­je pro­fun­do que, aun­que no lo es pro­pia­men­te, se ha gene­ra­li­za­do deno­mi­nar­las como tec­no­lo­gías de inte­li­gen­cia arti­fi­cial. Esta con­ver­gen­cia tec­no­ló­gi­ca y la súbi­ta explo­sión de estos mode­los de MML y GPT, ha pues­to a tra­ba­jar en ello, al tiem­po, a mul­ti­tud de equi­pos de desa­rro­llo. Empie­zan a ver­se múl­ti­ples resul­ta­dos y no solo de gran­des empre­sas tec­no­ló­gi­cas, sino tam­bién de peque­ños e inno­va­do­res gru­pos de tec­nó­lo­gos.

Generar y clonar voces humanas

Pon­go un ejem­plo apa­re­ci­do hace pocos días en un foro de tec­no­lo­gía. Dos ani­mo­sos desa­rro­lla­do­res de soft­wa­re publi­ca­ron un post que decía lite­ral­men­te: «Hola, somos Mah­moud y Ham­mad, cofun­da­do­res de Play.ht, una pla­ta­for­ma de sín­te­sis de tex­to a voz. Esta­mos cons­tru­yen­do gran­des Mode­los de voz para todos los idio­mas enfo­ca­dos en la expre­si­vi­dad y el con­trol de la voz…».

«Hoy, esta­mos encan­ta­dos de com­par­tir el acce­so beta a nues­tro últi­mo Mode­lo (LLM). Se lla­ma Parrot. Es capaz de clo­nar cual­quier voz huma­na —o no huma­na—, con unos pocos segun­dos de audio y gene­rar un habla expre­si­va y rea­lis­ta a par­tir de tex­to». Según sus crea­do­res, el mode­lo tam­bién cap­ta bien los acen­tos y es capaz de hablar con todos los acen­tos ingle­ses. Inclu­so, pue­den hacer que hablan­tes no ingle­ses hablen inglés, con­ser­van­do su acen­to ori­gi­nal. Cual­quie­ra —dicen—, pue­de subir un clip de soni­do digi­tal habla­do por una per­so­na que no hable inglés y pro­bar­lo.

Estos desa­rro­lla­do­res afir­man que los actua­les mode­los de con­ver­sión de tex­to a voz care­cen de expre­si­vi­dad, con­trol o direc­cio­na­li­dad de la voz; y no con­si­guen que una voz hable de una for­ma espe­cí­fi­ca o enfa­ti­zan­do una pala­bra o par­tes del dis­cur­so. Su obje­ti­vo a medio pla­zo es solu­cio­nar esto para todos los idio­mas. Y ase­gu­ran que como las voces gene­ra­das por su tec­no­lo­gía se basan en LLM, pue­den expre­sar emo­cio­nes en fun­ción del con­tex­to del tex­to.

Su tec­no­lo­gía Parrot, ofre­ce dos tipos de clo­na­ción de voz; una de alta fide­li­dad y otra inme­dia­ta. La clo­na­ción de voz de alta fide­li­dad requie­re 20 minu­tos de datos de audio para crear una voz expre­si­va con todo el acen­to en la voz de des­tino y todos sus mati­ces. Pero su espec­ta­cu­lar clo­na­ción cero o inme­dia­ta, clo­na la voz con sólo unos 20 segun­dos de audio y cap­tu­ra la mayor par­te del acen­to y el tono. Así que podrás crear audio­li­bros, pro­gra­mas de radio, pie­zas sono­ras, pod­casts, o can­cio­nes com­ple­tas con una voz cono­ci­da reco­no­ci­ble sin que su due­ño siquie­ra lo sepa ni inter­ven­ga usan­do solo 20 segun­dos de su voz. Va a ser tre­men­do. Y las apli­ca­cio­nes en polí­ti­ca están al caer.

Y solo es un ejem­plo. Así que sobre los usos ale­ga­les o per­ju­di­cia­les de estas tec­no­lo­gías tam­bién se va a hablar mucho pró­xi­ma­men­te. Hay usua­rios a los que les encan­ta inten­tar enga­ñar por diver­sión. Pero otros, la usan para come­ter frau­des y apro­ve­char la sor­pren­den­te­men­te inge­nui­dad que mues­tran la mayo­ría de usua­rios en la red.

Los her­ma­nos Bosch, fun­da­do­res de Voi­ce­mod: Fer­nan­do (izquier­da), Jai­me (cen­tro) y Juan (dere­cha).

Construir identidad sonora digital

Hay una empre­sa valen­cia­na en la van­guar­dia mun­dial de tec­no­lo­gías digi­ta­les de soni­do muy cono­ci­da en el mer­ca­do mun­dial del gaming, los ciber­jue­gos y redes socia­les. Se lla­ma Voi­ce­mod, fue fun­da­da por tres empren­de­do­res valen­cia­nos, los her­ma­nos Jai­me, Fer­nan­do y Juan Bosch. Es muy admi­ra­da por sus poten­tes apli­ca­cio­nes para gene­rar Iden­ti­dad Sono­ra.

Median­te sus tec­no­lo­gías, los usua­rios de jue­gos como Lea­gue of Legends, War­craft, Over­watch, Rust o Fort­ni­te, pue­den dotar de una voz sin­té­ti­ca pero creí­ble a sus ava­tars o dobles digi­ta­les con los que par­ti­ci­pan en los jue­gos en pla­ta­for­mas como Roblox, VRChat, Dis­cord; pero tam­bién pue­den modi­fi­car­se la voz o crear­se una nue­va para sus men­sa­jes en WhatsApp o en las ciber­reu­nio­nes con apli­ca­cio­nes como Zoom o Goo­gle Meet, etc.

La empre­sa Voi­ce­mod, con un poten­te equi­po de I+D y desa­rro­lla­do­res, cuen­ta con más de cien inge­nie­ros y más de 150 tra­ba­ja­do­res, tra­ba­jan­do en más de 20 paí­ses, entre ellos en Chi­na, don­de el gigan­te tec­no­ló­gi­co Ten­cent usa y dis­tri­bu­ye su tec­no­lo­gía. Sus apli­ca­cio­nes han sido des­car­ga­das más de 50 millo­nes de veces.

Video Text-A-Can­­ción, gene­ra­dor viral de can­cio­nes meme de Voi­ce­mod.

A fina­les de 2022, Voi­ce­mod deci­dió incor­po­rar­se a la com­pe­ti­ti­va carre­ra de la Inte­li­gen­cia arti­fi­cial gene­ra­ti­va apli­ca­da al soni­do digi­tal. Su vía fue a tra­vés de la adqui­si­ción de la empre­sa cata­la­na Voc­tro Labs, una spin-off del Gru­po de Tec­no­lo­gía Musi­cal de la Uni­ver­si­tat Pom­peu Fabra espe­cia­li­za­da en tec­no­lo­gía musi­cal e inte­li­gen­cia arti­fi­cial. Con­jun­ta­men­te, lan­za­ron sus pri­me­ras voces sin­te­ti­za­das median­te IA a fina­les del año pasa­do y tuvie­ron un gran éxi­to entre los usua­rios. Esa tec­no­lo­gía sono­ra que han desa­rro­lla­do per­mi­te can­tar en tiem­po real con la voz de otro can­tan­te.

Tam­bién están exten­dien­do su mer­ca­do hacia EE.UU. Para ello han fir­ma­do acuer­dos con la War­ner para incor­po­rar voces y soni­dos de fran­qui­cias de pelí­cu­las o las series más popu­la­res. Para ello ya poseen los dere­chos para Rick y Morty o Bat­man, y otros per­so­na­jes del mer­ca­do de super­hé­roes. En el mis­mo sen­ti­do que la cita­da ht van tra­ba­jar en su pla­ta­for­ma tam­bién con con­te­ni­do sono­ro crea­do por usua­rios.  

La lla­ma­da inte­li­gen­cia arti­fi­cial gene­ra­ti­va y el soni­do digi­tal for­man una poten­te com­bi­na­ción mul­ti­di­men­sio­nal que nace aho­ra y va a cre­cer enor­me­men­te, tan­to para lo bueno como para lo malo.

Comparte esta publicación

amadomio.jpg

Suscríbete a nuestro boletín

Reci­be toda la actua­li­dad en cul­tu­ra y ocio, de la ciu­dad de Valen­cia