Мільйони років еволюції привчили людей довіряти зору, і вигук «очам своїм не вірю!» ще донедавна сприймався як іронічний. Проте дипфейки вчать нас критично ставитися до побаченого. І за темпами навчання людство має постаратися обігнати нейромережі.
Слово дипфейк (deepfake) склалося з термінів deep learning (глибоке навчання) і fake (підробка). Це явище вважається породженням новітніх технологій машинного навчання, проте саме явище «підміни візуальної реальності» куди старше. Перші досліди в «теплих аналогових дипфейках» були ровесниками фотографії та робилися методами подвійного експонування і ретуші. Так на зображеннях з’являлося те, чого не було в об’єктиві камери: це було ще не deep, але вже fake. Потім прийшов кінематограф із комбінованим зніманням і макетами, замахали намальованими світловими мечами джедаї на картонних зорельотах, а трохи згодом комп’ютери доросли до графіки, яку неможливо відрізнити від реальності. Що далі, то переконливішою ставала картинка.
Навіть примітивні технології фотомонтажу регулярно використовувалися для виробництва підробок. І не тільки з метою створення відносно нешкідливих сенсацій на кшталт Чудовиська озера Лох-Несс або НЛО, а й для шантажу, політичних провокацій, репутаційних скандалів, впливу на громадську думку тощо. Зрозуміло, дипфейки, що дали можливість простого, а головне, масового доступу до технології підміни зображень, дістали насамперед негативну конотацію, хоча могли б використовуватися (і використовуються) не тільки в поганих цілях.
Глибини можливостей
Дипфейки створюються шляхом навчання генеративно-змагальної нейронної мережі (Generative Adversarial Network, або GAN). Одна нейронна мережа, генератор, створює зображення, а інша, дискримінатор, оцінює їх. Цей процес має ітераційний характер: генератор постійно вдосконалює вихідний сигнал, створюючи дедалі переконливіші підробки, поки дискримінатор не перестане відрізняти справжні зображення від фейків. Як правило, у цей момент їх перестають розрізняти й люди.
Це відкриває вікно можливостей для маніпуляцій у сфері соціальної інженерії, причому з дуже низьким «порогом входження», що кардинально відрізняє дипфейки від технологій підміни минулих поколінь. Щоб створити переконливе підроблене фото, не кажучи вже про відео, засобами аналогового передавання зображення, були потрібні висока кваліфікація виконавця, багато праці, а результат все одно не міг обдурити експерта. Зараз генеративні мережі доступні кожному, що породжує кількісний стрибок, який глибоко впливає на медіасферу. І це в той момент, коли сама медіасфера займає дедалі більше місця в нашому житті. Тільки за 2020 рік і тільки у США було здійснено понад мільйон махінацій з використанням технології deepfake.
Невже дипфейки настільки гарні, що їх неможливо розпізнати? На жаль, так. І не в останню чергу тому, що люди занадто впевнені в собі. Опитування показали, що 57% споживачів контенту в усьому світі вважають, що вони можуть успішно виявити підробку, хоча на практиці змогли їх розпізнати лише 24% респондентів.
З огляду на те, що якість генерації та потужність GAN-мереж зростають експоненціально, на кілька поколінь на рік, нескладно екстраполювати, що незабаром детектувати дипфейки не зможуть навіть спеціальні служби – не те що користувач, який побачив ролик у соцмережі. Практично всі методи виявлення підробок, які працювали ще кілька місяців тому (як-от артефакти генерації, аналіз тіней, відображення в очах тощо), втрачають актуальність. Зрозуміло, постійно з’являються нові, як-от аналіз пульсації крові у венах обличчя, частоти моргання тощо, але це вічна історія «боротьби броні та снаряда», у якій найчастіше програє звичайна людина.
Кримінальні послуги
Найпопулярніші на сьогодні сценарії кримінального використання глибоких підробок – це шантаж, фішинг, обхід біометрії, маніпуляції громадською думкою і Crime-as-a-Service (злочин як сервіс). З метою шантажу злочинці генерують підроблені відео або фото жертви в компрометувальній ситуації й вимагають гроші за нерозповсюдження матеріалу. Багато хто віддасть перевагу відкупитися, а не доводити, що не знімався, наприклад, у порно. У просунутих фішингових атаках згенероване зображення використовується під час відео-конференц-зв’язку. Шахраї прикидаються високопоставленими керівниками та переконують жертву здійснити великий грошовий переказ.
Сучасні біометричні системи не обдурити звичайною фотографією, але динамічне відео може допомогти імітувати живу людину. Для цього не обов’язково розмахувати перед камерою банкомата екраном телевізора. Існує можливість впроваджувати підробки безпосередньо в потік даних або в процес аутентифікації (атака з цифровим впровадженням).
Crime-as-a-Service – відносно нова кримінальна галузь, але така, що страшенно швидко зростає. Це процес, за якого кіберзлочинці розробляють інструменти deepfake, а потім продають їх як послугу для кримінальних кіл найрізноманітнішої спеціалізації. На відміну від злочинця-одинака, така система не має нестачі у фінансуванні та дефіциту в компетенціях, що перетворює її на глобальну загрозу.
Використання дипфейків для впливу на громадську думку дає змогу, наприклад, впливати на вартість біржових активів. Одного разу чергова заява Ілона Маска про продаж «Тесли» за певну криптовалюту може виявитися хибною, і хтось встигне непогано заробити на ринковій паніці. А вже який фінансовий шторм викличе дипфейк про зміну ставки рефінансування!
Дипфейк у законі
Технології підміни зображення не розвивалися б так стрімко, якби не було в них легальних і корисних варіантів застосування. Наприклад, фільмування в рекламі приносить відомим акторам чималі гроші. Впізнаваність – це реальний капітал, вони напрацьовували її роками та мають повне право монетизувати. Однак сам процес знімання в рекламі відвертає увагу зірок від створення оскароносних шедеврів, а їхні гонорари закладаються у вартість рекламованого товару, лягаючи на плечі споживача. Технологія deepfake дає змогу акторам і компаніям, що виробляють рекламу, зробити крок назустріч один одному – актори продають своє обличчя, а не себе. Відомі кожній людині риси накладають на інших людей, і ось уже умовний Том Круз може «знятися» в сотні роликів, не витративши ні хвилини дорогоцінного часу, причому сам актор отримає більше, а кожен рекламодавець заплатить менше. Аналогічним чином в оновлених «Зоряних війнах» можна побачити молоді обличчя акторів з перших серій, «одягнені» на нових виконавців.
Ще одне застосування дипфейків – lip sync, синхронізація руху губ з промовою. Так, у соціальній рекламі проти малярії, створеній Ridley Scott Associates і Synthesia, Девід Бекхем розмовляє всіма мовами, якими переклали ролик, і губи його рухаються синхронно незалежно від того, китайська це, англійська чи російська. Така технологія нині активно впроваджується для дубляжу повнометражних фільмів.
І навіть у політиці цей метод не обов’язково використовується для компрометації. Не так давно в Індії президент партії «Бхаратія Джаната» Манодж Тіварі звертався до своїх прихильників гінді, діалектом харіані та англійською одночасно, використовуючи в передвиборчому ролику lip sync, що високо оцінили його шанувальники з різних мовних груп. Кожному приємно, коли твій політик говорить твоєю мовою.
Суперечлива з етичного та психологічного погляду, але, безумовно, така, що несе добрий намір, техніка «оживлення мертвих» також заснована на deepfake. Оцифрувавши прижиттєві відео померлих людей, можна створювати їхні правдивий віртуальні копії. Так, жінка з Південної Кореї змогла побачити свою дочку живою через три роки після її смерті.
Не всякий фейк – deep
Навряд чи технологія deepfake радикально змінить життя. Маніпулювати суспільною свідомістю й обманювати людей чудово виходило навіть у ті часи, коли не було комп’ютерів. Немає принципової різниці, зателефонує вам живий «співробітник безпеки банку» чи згенерований бот. Не надто важливо, як саме створено фотографію в соцмережі, що викликала ваше обурення, – під час постановчого фільмування зі статистами чи за допомогою нейромережі. Важливо зберігати здоровий глузд і критично ставитися до будь-якої інформації.