Nový editor videí vyvinutý na Stanfordu by mohl změnit mediální prostor. A to hlavně díky tomu, že šetří finance. Pokud například v reportáži zazní přebrept nebo vypadne slovíčko, dosud bylo jediným řešením se s chybou smířit, záběr přetočit nebo si s ním složitě pohrát ve střižně. To všechno je samozřejmě dost nákladné.

Editor videa je použitelný stejně snadno jako editor textu. Je v něm možné přidávat nová slova, mazat nepotřebná nebo kompletně přeskupovat části videa pouhým přetažením myší. Výsledné video pak působí na netrénované oko téměř bezchybně.

Pomůže videoeditorům, ale...

Tento algoritmus pro editaci videí s mluvícími hlavami (snímanými od ramen nahoru) vytvořil tým vědců ze Stanfordské univerzity, Max Planck Institute for Informatics, Princetonské univerzity a společnosti Adobe Research. Výsledek jejich snažení by mohl být požehnáním pro videoeditory a producenty, na druhé straně ale vyvolává obavy, protože lidé stále častěji zpochybňují věrohodnost obrázků a videí. Autoři jsou si toho vědomi, takže navrhnou směrnice pro používání těchto nástrojů, které by varovaly diváky, že video bylo upraveno. Podobné technologie samozřejmě přitahují i lidi s nekalými úmysly, ale to by nemělo pokrok v této oblasti brzdit.

Při ověřovací studii se 138 účastníky byla editovaná videa hodnocena jako skutečná a neupravená v 60 % případů.

Aplikace používá nový transkript k extrahování pohybů obličeje při mluvení z různých videozáznamů a pomocí strojového učení je převádí do finálního videa, které na diváka působí přirozeně, a to včetně synchronizace pohybu rtů a obličejových svalů. „Vizuálně je to bezproblémové. Není třeba nic natáčet znovu,“ říká Ohad Fried, jeden z autorů příspěvku o projektu, který byl publikován nejdříve na jeho webu a později i v magazínu ACM Transactions on Graphics.

Inteligentní čištění

Pokud by se někdo z lidí mluvících na videu přeřekl, editor může jednoduše zasáhnout do transkriptu, přepsat ho a algoritmus pak změnu sám sestaví ze slov nebo jejich částí, které zazněly jinde ve videu. Přirovnání k práci s textovým editorem sedí dokonale, algoritmus ovšem vyžaduje minimálně 40 minut původního videa jako vstup a vzor, se kterým pracuje.

Fried uznává obavy, že by taková technologie mohla být použita k nezákonným účelům, ale říká, že riziko za to stojí.

Aby bylo video přirozenější, algoritmus aplikuje inteligentní čištění na parametry pohybu a vykreslí 3D animovanou verzi požadovaného výsledku. Tento renderovaný obličej je však stále velmi realistický. Jako poslední krok pak technika strojového učení nazvaná „Neural Rendering“ převádí digitální model s nízkou věrností na realistické video s dokonale synchronizovanými rty hovořící osoby.

Při ověřovací studii se 138 účastníky byla editovaná videa hodnocena jako skutečná a neupravená v 60 % případů. Vizuální kvalita je velmi blízká originálu, ale Ohad Fried uvedl, že vidí ještě mnoho prostoru ke zlepšování. Důsledky například pro filmovou postprodukci mohou být podle jeho kolegy Maneeshe Agrawaly zásadní.

Jako retuš fotky?

Nicméně v éře falešných videí editor pochopitelně vyvolává etické obavy, existují ale ospravedlnitelné důvody, proč tímto způsobem videa upravovat: Jde o náklady a úsilí potřebné k opětovnému natočení nebo opravě nedostatků ve videoobsahu nebo jeho přizpůsobení publiku. Instruktážní videa mohou být například doladěna do různých jazyků nebo kulturních prostředí či věku diváků.

Fried uznává obavy, že by taková technologie mohla být použita k nezákonným účelům, ale říká, že riziko za to stojí. Software pro úpravu fotografií prošel podobným vývojem, ale nakonec žijeme ve světě, kde se s úpravou fotografií většina lidí smířila. Stejně jako má veřejnost povědomí o tom, že je možné manipulovat s fotografiemi, měla by být edukována i v případě manipulace s videy.

Související…

Porno? Ne, to je deepfake. Jak nasadit známou hlavu na cizí tělo
Luboš Heger

foto: Shutterstock, zdroj: Stanford News