xAI Ілона Маска представила нову версію «вбивці ChatGPT»

Grok 1.5V навчився розуміти картинки. За деякими тестами модель випереджає навіть GPT-4V.

Конкурент OpenAI – компанія xAI Ілона Маска – представила свою першу мультимодальну модель Grok-1.5 Vision (або Grok-1.5V).

Інструмент здатний обробляти дані, що відображаються в малюнках всередині документів, діаграмах, таблицях, скриншотах і фотографіях. Незабаром рішення стане доступним для тестування серед професіоналів ринку і поточних користувачів Grok.

Презентація відбулася через кілька тижнів після того, як xAI представила оновлену модель чат-бота Grok-1.5. І це ще один крок компанії Маска, яка як ключову мету заявила створення «корисного загальнодоступного ШІ».

Як приклади роботи Grok-1.5V компанія наводить кілька дій: від перетворення начерку блок-схеми на код Python або перетворення таблиці на файл формату CSV до створення казки на ніч за мотивами дитячого малюнка або пояснення мема.

Представники xAI запевняють, що ця мультимодальна модель виділяється на тлі аналогів (GPT-4V, Claude 3Sonnet, Claude 3 Opus і Gemini Pro 1.5) і перевершує конкурентів в аналізі навколишнього простору.

Перевага досягається шляхом використання технології RealWorldQA (ліцензія Creative Commons), навченої на 700+ зображень, що супроводжувалися запитаннями та відповідями щодо кожного предмета.

Більше публікацій за темою