Hlasový deep fake v reklame alebo: ako experti na umelú inteligenciu oživili hlas Júliusa Satinského

Autor SLSP november 2022 -
Pamätník J. Satinského v Bratislave Pamätník J. Satinského v Bratislave Wikipedia

V novej kampani Slovenskej sporiteľne znie hlas zosnulého dramatika, herca a glosátora. Hovorí aj vety, ktoré J. Satinský nikdy nepovedal. Postarala sa o to umelá inteligencia v réžii ukrajinských vývojárov.

Na vytvorenie piatich minút novo nahovoreného textu sa musela použiť technológia deep learning. Neurónová sieť spracovala hodiny audio nahrávok slovenskej legendy, pomocou ktorých sa AI model učil rozpoznávať opakované vzory v hlase Júliusa Satinského s jeho rôznymi polohami a emóciami.

Ako je možné, aby Július Satinský hovoril dnes slová, ktoré nikdy nenahral? Hovorí sa tomu „speech to speech“ spôsob spracovania hlasu. Potrebná je na to umelá inteligencia, ktorá dokáže na základe vstupných dát – v tomto prípade pôvodného hlasu – vytvoriť jeho syntetickú zvukovú kópiu.

„Väčšina spracovávaného obsahu pochádzala z analógových nahrávok, ktoré boli vytvorené začiatkom 90. rokov. Najnovšia z použitých nahrávok hlasu Júliusa Satinského pochádza z roku 1994,“ vysvetľuje Volodymyr Ovsiienko, Business Development Executive ukrajinskej spoločnosti Respeecher, ktorá vytvorila syntetický hlas J. Satinského.

Respeecher analyzoval po kvalitatívnej stránke hodiny získaného materiálu, z ktorých vyselektoval 40 minút technicky dosť kvalitného zvukového materiálu. Je to minimálna potrebná minutáž, s ktorou spoločnosť dokáže pracovať v rámci technológie deep learning, využívajúcej neurónovú sieť AI. Dôležitá bola čistota nahrávky a absencia rušivých zvukov.

V hlavnej úlohe najnovšia AI technológia

Následne začal ukrajinský startup pomocou nahrávok trénovať AI model, ktorý rozpoznával a učil sa určité typické vzory v dikcii Júliusa Satinského.

Okrem samotného hlasu sa program umelej inteligencie učil rozoznávať a imitovať aj fonetiku slovenského jazyka. Umelá inteligencia v tomto prípade nerozoznáva reč na úrovni jednotlivých slov, ale na základe zvukov, ktoré sa v danom jazyku nachádzajú, a vzoru ich vzájomného fonetického usporiadania. Táto fáza trvala približne dva týždne.

Respeecher následne hlas J. Satinského aplikoval na podklad, ktorý v štúdiu nahral slovenský herec Michal Hudák. Jeho úlohou bolo zvoliť čo najautentickejšie tempo reči, intonáciu, frázovanie a akcent. V hlase mal zhmotniť emócie, ktoré by zodpovedali verbálnemu prejavu J. Satinského.

Proces aplikácie už hotového hlasu na surovú zvukovú nahrávku trval spoločnosti týždeň.

Celkovo vzniklo 5 minút audiomateriálu so Satinského hlasom, ktorý znie v novej kampani Slovenskej sporiteľne. O úspechu technologickej stránky projektu svedčia aj vyjadrenia členov Satinského rodiny, ktorá potvrdila vysokú mieru autentickosti nových nahrávok v porovnaní s originálom.

Unikát vďaka svetovému lídrovi z Ukrajiny a najnovšej technológii

Ide o vôbec prvý projekt svojho druhu na Slovensku a zároveň prvú slovenskú spoločnosť, ktorá spolupracovala s ukrajinským startupom Respeecher na simulovaní hlasu pomocou umelej inteligencie. 

Respeecher vznikol v roku 2018. Založili ho Alex Serdiuk, Dmytro Bielievtsov a Grant Reaber. Dnes ho považujú za svetového lídra v tejto oblasti využívania umelej inteligencie. Tá dokáže na základe existujúceho audioobsahu vytvoriť verný profil charakteru vybraného hlasu. Potom je ho možné aplikovať na rečový prejav inej osoby (dabéra).

Spoločnosť stojí napríklad za tvorbou hlasu postavy Dartha Vadera v seriáli Obi-Wan Kenobi a postavy Luka Skywalkera v seriáli Mandalorian.

Respeecher využíva technológiu v súlade s právnymi normami a so súhlasom majiteľov autorských práv a rodiny dotknutej osoby.

Technologický spôsob spracovania hlasu, ktorému sa Respeecher venuje, sa výrazne odlišuje od rozšírenejšej technológie „text to speech“ (TTS), ktorú používatelia poznajú najmä z digitálnych prekladačov, čítačiek kníh či hlasových asistentov.

TTS z textu nedokáže vytvoriť emócie, a tak je hlas často neprirodzený (tzv. robotický). Jeho intonácia sa riadi len prednastaveným algoritmom a interpunkciou v texte.

TS SLSP

Multimédiá

Partneri