Deepfakes и Deep Video Porttraits - Какви са те и каква е разликата?

Несъмнено знаете какво представлява Deepfake, но може да не знаете какво се нарича или какво наистина означава. Може да не знаете, че има различни видове технологии, които могат да създават фалшиви видеоклипове и гласове.

Всички сме запознати с „фотошопните“ изображения и колко разразили се са станали те. Също така сме запознати с видео ефектите (VFX) и специалните ефекти, които се използват във филмите от десетилетия. Но нова ера от изфабрикувани медии ни предстои благодарение на „Deepfakes“.

Технологията Deepfake и Deep Video Portrait са две подобни, но различни техники, използвани в холивудски филми, видеоклипове в YouTube и да, порнография. Но каква е тази технология в действителност и как работи тя?

Ако все още не сте гледали видеоклип, в който лицето на Николас Кейдж е насложено върху друг филмов актьор, значи почти определено сте виждали един от многото „филтри“ или „маски“ в социалните медии, които могат да ви превърнат в котка, добавете готвач шапка към главата ви, или да ви направи еднорог.

Може би сте виждали видеото на BuzzFeed, в което комикът и импресионист Джордан Пийл демонстрира как лицето на някой (в случая бившият президент Барак Обама) в един видеоклип може да бъде манипулирано, така че да изглежда, че казва нещо, което никога не е правил.

Може би дори сте чували за звездата на Wonder Woman Гал Гадот, за която се предполага, че се появява във видеоклип за възрастни, който е фалшифициран от потребител на Reddit, наречен „deepfakes“. Deepfakes.

И така, какво е "Deepfake"?

В основата на Deepfakes е това, което може да мислите като „размяна на лица“.

A Deepfake е видеоклип с помощта на AI, създаден чрез правене на брой (обикновено стотици или хиляди) снимки на човек източник. Тези изображения могат да бъдат изтеглени от редица източници, като например в Instagram, Facebook, Snapchat или дори търсене на изображения в Google).

Софтуерът Deepfake AI картографира лицето на изходните изображения и генерира 3-D модел на лицето въз основа на снимките, с които се подава. Моделът очертава границата и характеристиките на лицето на целевия актьор:

Източник: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 от Cole Murray

Софтуерът също получава видео източник, съдържащ целево лице, което потребителят иска да замени. AI също така картографира лицето на човека във видеото, като отново създава 3-D картографиран модел.

Доцентът по научни изследвания на CMU Саймън Луси използва себе си като пример, за да покаже своя софтуер за картографиране на лице, разработен за онлайн търговец на очила. Кредит: Саймън Луси / CMU

Това е мястото, където AI започва да съответства на изходния модел с целевия модел. Той „научава“ лицата чрез изображенията, които му се дават (данни за тренировки), което изглежда малко така:

Пример за модел на обучение за размяна на лица - Елон Мъск на Джеф Безос от Ади Робъртсън, Източник: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

След това AI наслагва генерираното 3-D лице от изходните снимки над 3-D модела на целевия видеоклип и извежда видео, в което движенията на лицето, устата, очите и т.н. съвпадат, като работят в рамките на границите на оригинално лице.

Източникът на Deepfake е серия от неподвижни снимки, а резултатът от Deepfake е видео със заменено лице, като тези примери:

По какво се различава това от дълбокия видеопортрет?

Разликата между Deepfake и Deep Video Portrait (DVP, за краткост) се състои в две основни разграничения:

  1. Изходното видео от DVP не замества лицето, а само манипулира функциите
  2. Източникът на DVP произлиза от актьор на живо, а не от отделни снимки.

DVP не се сменя лице. Това е манипулация на лицето. Видео кукловодство.

Свързаното видео по-рано в тази статия, показващо, че Обама говори за фалшиви видеоклипове, е пример за DVP, а не за глупости. Има актьор, чието лице е картографирано, и тъй като вие не замествате целевото лице, а само правите движението на целевото лице, резултатът може да бъде дори по-вероятен от фото базираната дълбочина.

Създателите на DVP могат да правят неща като да накарат мишката да мига, да отворят устата, да повдигнат веждите и да обърнат главата настрани въз основа на движенията на източника на актьора. Deepfakes, от друга страна, не може наистина да се отклони от движенията на оригиналното видео. Ето защо DVP е по-правдоподобен от задълбочен фалк.

Този пример обяснява по-задълбочено как работи тази технология за „улавяне и възстановяване на лица“:

Филтърната маска Snapchat или Instagram е DVP, а не Deepfake. Това е така, защото вие сте (целта не променя лица), но лицето ви е картографирано и приложението просто наслагва нещо над собственото ви лице:

Гласови фалове и дълбоки видео портрети

Има и друг вид фалшиво съдържание, което напоследък стана по-добро и по-достъпно - генериране на глас.

На конференцията на Adobe Max Creativity през 2016 г. Adobe демонстрира VoCo: аудио пакет, който може да помогне на потребителите да кажат хората каквото искат. Мислете за текст в реч, но въз основа на нечий истински глас.

Според компанията, 20 минути слушане може да позволи на VoCo да излъчи реалистична вокална песен, която звучи като източника. Резултатът се генерира през компютъра, работещ със софтуера.

Adobe VoCo не се е чувал от 2016 г., може би след възникването на опасенията за поверителност и идентичност. Той беше представен на „форум за идеи“, не обявен за нов продукт. Това породи интерес, вълнение и дискусия, но не предложи конкретни очаквания за освобождаване.

Сега, когато идеята и технологията съществуват, така че естествено, други компании пуснаха своя собствена версия на технологията за генериране на глас. Lyrebird пусна услуга, която генерира „вокален аватар“ за вас въз основа само на 30 изречения на въвеждаща реч (срещу приблизителните 20 минути данни, необходими за VoCo).

Докато VoCo се нуждае от локални изчислителни ресурси, за да генерира своята продукция, Lyrebird използва мащабируеми облачни ресурси, което прави генерирането на продукция значително по-бързо. Lyrebird също изисква 30 конкретни изречения срещу 20 минути основни речеви модели, които биха могли да ограничат измамата и други уязвимости.

В комбинация с DVP, гласовата фалшификация може да увеличи правдоподобността. Това е така, защото не слушате впечатление за някого, което може да излъже фалшивостта, а по-скоро чувате много по-тясно представяне въз основа на собствения глас на целевия човек.

Хибридна технология

FaceSwap е приложение, което ви позволява по същество да комбинирате размяната на лица на Deepfake, но в реално време със собствените си изрази кукловодство на лицето на другия човек. Той комбинира Deepfake и DVP.

заключение

Тези технологии ще продължат да се усъвършенстват. Въпреки че много приложения са забавни и причудливи, ефектът, който тази технология ще има, е значителен.

Deepfakes и DVP без съмнение ще имат широко влияние върху възгледите ни за реалността, доверието и поверителността. Въпреки това, дискусия за етиката, проблемите и въздействията върху обществото (добри и лоши) е далеч извън обхвата на този член.

Засега единственото решение е (да продължите) да бъдете скептични към всичко, което виждате и чувате.

Снимка на Mikes Photos от Pexels