Компанія OpenAI представила нову версію свого штучного інтелекту – GPT-4 Omnia (GPT-4o). Це революційне оновлення, яке напевно розділить історію OpenAI на «до» і «після». Якщо раніше користувачі могли спілкуватися з сервісом компанії тільки у форматі чат-бота, то тепер нейромережа може чути й бачити людей, а також розуміти емоції та імітувати їх сама. Завдяки GPT-4o ШІ OpenAI буквально ожив. Розповідає, чому це одночасно і заворожує, і лякає.
Чому так багато хайпу?
GPT-4o представили ввечері 13 травня, і новинка миттєво викликала фурор – п’ятихвилинне відео, в якому співзасновник OpenAI Грег Бауман спілкується з нейромережею, за ніч набрало півмільйона переглядів. На YouTube-каналі компанії ще жоден кліп не набирав популярності так швидко.
Чим же GPT-4o всіх так вразила? Ну, як мінімум тим, що вона, по суті, стала тим самим комп’ютерним помічником з фільмів і відеоігор, які бачать людину, коментують те, що відбувається, відпускають жарти й не тільки. Джарвіс із «Залізної людини», Кортана з Halo і, нарешті, Саманта з фільму «Вона», в якому герой Хоакіна Фенікса закохується в ШІ. Про це у своєму блозі заявив і сам засновник OpenAI Сем Альтман.
«GPT-4o схожий на ШІ з фільмів; і мене досі трохи дивує, що це реально», – написав він.
До слова, із Самантою у GPT-4o спільного більше, ніж просто асоціація. По-перше, у демонстраційних відео GPT-4o розмовляє голосом, дуже схожим на голос Скарлетт Йоганссон, яка й озвучувала ШІ в «Вона». По-друге, Альтман неодноразово говорив, що він великий шанувальник цього фільму, а після презентації GPT-4o опублікував у X (колишня Twitter) коротке повідомлення: «вона».
Що вміє GPT-4o?
Насамперед варто відзначити поліпшення роботи ШІ з голосом. Вона стала значно швидшою, що дає змогу спілкуватися з сервісом у режимі реального часу – не потрібно записувати голосові повідомлення, надсилати їх на сервер і чекати на відповідь у вигляді іншого аудіозапису. Усе відбувається максимально нативно, за відчуттями, GPT-4o зараз – найкращий голосовий інтерфейс для комп’ютера.
Синтез мови теж виявився вище всіх похвал. Судячи з представлених компанією зразків, GPT-4o в цьому плані значно кращий за Alexa від Google Assistant, Алісу від «Яндекс» і тим більше Siri від Apple. Мова GPT-4o звучить природно: у ній немає властивих робоголосам перепадів інтонацій.
Ба більше, нова нейромережа синтезує правдоподібні вигуки та навіть сміх. Від останнього, щоправда, біжать мурашки по шкірі: не тому, що він поганий, а навпаки – занадто правдоподібний.
Другим великим досягненням OpenAI стало включення зору для нейромережі. Запускаючи ШІ на смартфоні або комп’ютері, GPT-4o під’єднується до вбудованої камери пристрою й аналізує об’єкти в кадрі.
Наприклад, програма вловлює зміни в міміці людини й в такий спосіб визначає емоції співрозмовника не тільки за тембром голосу, а й за його обличчям. Жести, тварини, одяг, меблі та багато іншого теж піддаються аналізу, ідентифікації та інтерпретації з боку GPT-4o.
Доповнює імітацію особистості розуміння сарказму і гумору. GPT-4o не тільки розпізнає жарти людини та грайливо над ними хихикає, а й сама активно кепкує над співрозмовниками. Нічого, крім шоку, це під час перегляду демонстраційних кліпів від OpenAI не викликає.
Яка користь GPT-4o?
Сценаріїв застосування GPT-4o маса. Тільки OpenAI під час презентації показала кілька десятків. Розробники пропонують використовувати нову нейромережу для розваг, як співрозмовника, перекладача, освітньої платформи й не тільки. Наприклад, в одному з демороликів GPT-4o грає з людьми в «Камінь, ножиці, папір», в іншому – виступає в ролі перекладача для двох людей, один з яких знає тільки іспанську мову, а інший – тільки англійську, у третьому – нейромережа стає очима для незрячого: людина водить об’єктивом камери, а AI докладно описує об’єкти в кадрі.
До речі, в нейромережу в режимі реального часу можна завантажувати не тільки відео з камери, а й зображення з робочого столу комп’ютера. У цьому разі GPT-4o швидко проаналізує вміст і зможе його прокоментувати.
Наприклад, програмісту сервіс може підказати, як оптимізувати код, художнику – як поліпшити зображення, фотографу – як відретушувати знімок тощо.
Якщо говорити про економічну перспективу GPT-4o, то тут можна провести деякі зв’язки з корпорацією Apple. Взагалі, OpenAI ніяк не монетизує ChatGPT, якщо не брати до уваги платний тариф за $20 на місяць, який потрібен хіба що корпоративним користувачам або великим ентузіастам. Однак скоро в OpenAI й ChatGPT з’явиться великий клієнт в особі корпорації Apple.
Apple інтегрує ChatGPT та інші ШІ-інструменти GPT в iOS, iPadOS і macOS. Окремо інсайдери підкреслюють, що одна з версій GPT стане базою голосового асистента Siri, над яким уже давно посміюються через його нікчемність. У світлі цих подій стає очевидним, що GPT-4o – це готовий сетап для тієї ж Siri.
Якщо Apple зможе реалізувати на iPhone хоча б половину з представлених функцій GPT-4o, вона миттєво вирветься в авангард інтелектуальної споживчої техніки.
Докладніше про інтеграцію ChatGPT у свої операційні системи Apple розповість у червні 2024 року в рамках конференції розробників WWDC. Примітно, що повноцінний реліз GPT-4o також заплановано на червень.
Це небезпечно?
Наприкінці 2023 року рада директорів звільнила з посади генерального директора OpenAI співзасновника компанії Сема Альтмана. Незабаром після скандалу, що вибухнув, Альтмана поновили на посаді, але спонтанне рішення керівництва компанії досі оповите таємницею.
При цьому напевно відомо, що однією з причин звільнення співзасновника OpenAI стала скарга від кількох співробітників дослідницького відділу. У своєму листі вони заявили, що компанія наблизилася до «потужного відкриття у сфері ШІ, яке може загрожувати людству». Подробиць про відкриття не згадували, але повідомляли, що Альтман має намір комерціалізувати нову технологію, не усвідомлюючи наслідків від її використання.
Невідомо, чи є GPT-4o тим самим загадковим проєктом OpenAI, але легко можна припустити, що так. Адже здається, що, навіть якщо люди не почнуть масово закохуватися у свої смартфони, то шахраї точно використовуватимуть нові голосові можливості нейромережі у злочинних цілях.
Деякі експерти вважають, що сама GPT-4o не становить великої небезпеки для людей у плані кібербезпеки, однак цього не можна сказати про продукти, які з’являтимуться на базі розробок OpenAI.
Новий функціонал демонструє те, що є потенційно можливим з погляду технологій – генерацію реалістичного голосу з правильними інтонаціями та емоціями, причому практично в режимі реального часу. З огляду на те, що розвиток відкритих інструментів у сфері генеративних нейромереж йде досить швидко, можна очікувати в майбутньому інших аналогічних відкритих рішень, які вже можуть бути теоретично використані зловмисниками.
На думку фахівців, представлені OpenAI оновлення здаються хоч і масштабними, але еволюційними, а не революційними. То ж з погляду кібербезпеки принципово нових векторів загроз GPT-4o не додає.