fbpx
Flowee

Nový algoritmus vědců ze Stanfordu umožňuje videoeditorům upravovat mluvící hlavy na videu jednoduše, jako kdyby pracovali s textem. Kopírování, mazání nebo vkládání slov není problém

Zveřejněno: 20. 6. 2019

Nový editor videí vyvinutý na Stanfordu by mohl změnit mediální prostor. A to hlavně díky tomu, že šetří finance. Pokud například v reportáži zazní přebrept nebo vypadne slovíčko, dosud bylo jediným řešením se s chybou smířit, záběr přetočit nebo si s ním složitě pohrát ve střižně. To všechno je samozřejmě dost nákladné.

Editor videa je použitelný stejně snadno jako editor textu. Je v něm možné přidávat nová slova, mazat nepotřebná nebo kompletně přeskupovat části videa pouhým přetažením myší. Výsledné video pak působí na netrénované oko téměř bezchybně.

Pomůže videoeditorům, ale...

Tento algoritmus pro editaci videí s mluvícími hlavami (snímanými od ramen nahoru) vytvořil tým vědců ze Stanfordské univerzity, Max Planck Institute for Informatics, Princetonské univerzity a společnosti Adobe Research. Výsledek jejich snažení by mohl být požehnáním pro videoeditory a producenty, na druhé straně ale vyvolává obavy, protože lidé stále častěji zpochybňují věrohodnost obrázků a videí. Autoři jsou si toho vědomi, takže navrhnou směrnice pro používání těchto nástrojů, které by varovaly diváky, že video bylo upraveno. Podobné technologie samozřejmě přitahují i lidi s nekalými úmysly, ale to by nemělo pokrok v této oblasti brzdit.

Při ověřovací studii se 138 účastníky byla editovaná videa hodnocena jako skutečná a neupravená v 60 % případů.

Aplikace používá nový transkript k extrahování pohybů obličeje při mluvení z různých videozáznamů a pomocí strojového učení je převádí do finálního videa, které na diváka působí přirozeně, a to včetně synchronizace pohybu rtů a obličejových svalů. „Vizuálně je to bezproblémové. Není třeba nic natáčet znovu,“ říká Ohad Fried, jeden z autorů příspěvku o projektu, který byl publikován nejdříve na jeho webu a později i v magazínu ACM Transactions on Graphics.

Inteligentní čištění

Pokud by se někdo z lidí mluvících na videu přeřekl, editor může jednoduše zasáhnout do transkriptu, přepsat ho a algoritmus pak změnu sám sestaví ze slov nebo jejich částí, které zazněly jinde ve videu. Přirovnání k práci s textovým editorem sedí dokonale, algoritmus ovšem vyžaduje minimálně 40 minut původního videa jako vstup a vzor, se kterým pracuje.

Fried uznává obavy, že by taková technologie mohla být použita k nezákonným účelům, ale říká, že riziko za to stojí.

Aby bylo video přirozenější, algoritmus aplikuje inteligentní čištění na parametry pohybu a vykreslí 3D animovanou verzi požadovaného výsledku. Tento renderovaný obličej je však stále velmi realistický. Jako poslední krok pak technika strojového učení nazvaná „Neural Rendering“ převádí digitální model s nízkou věrností na realistické video s dokonale synchronizovanými rty hovořící osoby.

Při ověřovací studii se 138 účastníky byla editovaná videa hodnocena jako skutečná a neupravená v 60 % případů. Vizuální kvalita je velmi blízká originálu, ale Ohad Fried uvedl, že vidí ještě mnoho prostoru ke zlepšování. Důsledky například pro filmovou postprodukci mohou být podle jeho kolegy Maneeshe Agrawaly zásadní.

Jako retuš fotky?

Nicméně v éře falešných videí editor pochopitelně vyvolává etické obavy, existují ale ospravedlnitelné důvody, proč tímto způsobem videa upravovat: Jde o náklady a úsilí potřebné k opětovnému natočení nebo opravě nedostatků ve videoobsahu nebo jeho přizpůsobení publiku. Instruktážní videa mohou být například doladěna do různých jazyků nebo kulturních prostředí či věku diváků.

Fried uznává obavy, že by taková technologie mohla být použita k nezákonným účelům, ale říká, že riziko za to stojí. Software pro úpravu fotografií prošel podobným vývojem, ale nakonec žijeme ve světě, kde se s úpravou fotografií většina lidí smířila. Stejně jako má veřejnost povědomí o tom, že je možné manipulovat s fotografiemi, měla by být edukována i v případě manipulace s videy.

Související…

Porno? Ne, to je deepfake. Jak nasadit známou hlavu na cizí těloNevěř tomu, co vidíš, aneb je tu éra fake videaIdeální pro falešný telefonát: Umělá inteligence dokonale naklonuje váš hlas

foto: Shutterstock, zdroj: Stanford News

Tipy redakce

S Tomášem Zimou o roce 2050: Snad nás technika neodlidští a planeta unese

S Tomášem Zimou o roce 2050: Snad nás technika neodlidští a planeta unese

Přiznám se, že jsem tu od promoce nebyl. Tedy nějakých patnáct let. V Karolinu to...

Globální oteplování: Nejdůležitější fakta a kde se vzal český skepticismus

Globální oteplování: Nejdůležitější fakta a kde se vzal český skepticismus

Řada českých publicistů i vědců se v poslední době vyjadřuje s pochybami o...

Jak připravit dítě o zážitek? Pusťte mu hned po akci video z jeho akce

Jak připravit dítě o zážitek? Pusťte mu hned po akci video z jeho akce

Kamera je úžasný vynález. Dokáže zaznamenat skutečnost a uchovat ji v reálné...

Pokračováním v prohlížení těchto stránek souhlasíte s Podmínkami užití a Pravidly využití Cookies.