9 нових нейромереж для генерації відео

PixArt-Σ — створює зображення в 4К

Цю нейромережу розробили у Huawei. Її головна відмінність від попередніх версій — висока якість зображень. PixArt-Σ здатен генерувати зображення розміром до 3840x2560 пікселів з будь-яким співвідношенням сторін без потреби у проміжному масштабуванні.

Однак розробники не показали, які текстові підказки використовували в прикладах зображень. Можливо, PixArt насправді працює повільніше або гірше за інші моделі, оскільки його навчання було зосереджене на фотографіях з високою роздільною здатністю. Попередню версію, PixArt-α, врешті випустили з відкритим вихідним кодом, але поки невідомо, чи станеться те саме з PixArt-Σ.

Vlogger – для анімації фото людини

Ця нейромережа дозволяє створювати анімації на основі фотографій, без попереднього навчання на кожній окремій людині. Вона не залежить від розпізнавання обличчя, генерує повне зображення (а не тільки обличчя чи губи) і працює навіть тоді, коли на фото видно торс або присутні інші люди. За допомогою Vlogger можна створити фотореалістичне відео, з заданою тривалістю, яке повністю відтворює промову персонажа, включно з його мімікою та жестами.

Project Music GenAI Control – для створення музики

Adobe анонсувала нейромережу, яка створюватиме музику на основі текстових запитів. Наприклад, можна вказати "потужний рок", "сумний джаз" або "веселий танець", і інструмент згенерує відповідний трек. Результат можна буде редагувати: змінювати темп, структуру, патерни, налаштовувати інтенсивність звуку, збільшувати довжину треку, мікшувати окремі частини або створювати плавні циклічні повтори.

Sora — для генерації відео

Цю нейромережу розробила американська компанія OpenAI, творець чат-бота ChatGPT. Sora здатна створювати відео за текстовими запитами (промптами) тривалістю до однієї хвилини, зберігаючи при цьому високу візуальну якість. Зараз вона перебуває в бета-версії та проходить тестування щодо можливих ризиків і шкоди. Крім того, доступ до Sora надали декільком художникам, дизайнерам і режисерам, щоб зібрати їхній зворотний зв'язок.

Adobe GenStudio — для створення реклами

Новий інструмент Adobe дозволяє швидко створювати прес набори та рекламні пости для різних соцмереж, при цьому зберігаючи тон бренду. Загальнодоступна версія стане доступною цього року. За словами Adobe, ціни на GenStudio не будуть фіксованими й залежатимуть від потреб кожної компанії.

Image to SFX — для озвучування зображень

Цей цікавий онлайн-інструмент дозволяє перетворити будь-яке зображення на звуковий файл. Користувачі можуть вплинути на результат, обравши одну з трьох моделей — MAGNet, AudioLDM-2 або AudioGen, кожна з яких має свої особливості та переваги.

AI Playlist — для створення плейлистів

Ця функція наразі доступна преміум користувачам Spotify у Великій Британії та Австралії. Обравши опцію "AI-плейлист", користувачі можуть ввести текстовий запит, наприклад, "музика для читання в холодний дощовий день", і отримати підбірку з 30 пісень, що відповідають заданій атмосфері. Результати можна додатково налаштувати за допомогою додаткових підказок, наприклад, "сумніше"

SIMA — для проходження ігор

Google DeepMind навчили цю нейромережу на таких іграх, як Valheim, No Man's Sky та Goat Simulator. В майбутньому вона зможе проходити будь-які відеоігри, включаючи ті, що мають відкритий світ і нелінійну розповідь. Її тренують розуміти природну мову, розпізнавати зображення та орієнтуватися у тривимірних світах, зокрема в іграх без чіткого наративу. Наприклад, у Goat Simulator, де потрібно здійснювати спонтанні дії.

0:00

/0:20

На цей момент SIMA володіє близько 600 базовими навичками, такими як поворот ліворуч, підйом сходами або відкриття ігрового меню для використання карти. У майбутньому вона стане повноцінним гравцем, який зможе впливати на результат гри.

Voice Engine — для копіювання голосу

Модель розробляється з кінця 2022 року і використовується для читання тексту вголос у ChatGPT. Зараз бета-версію тестують десять перших розробників. Нейромережа здатна створювати синтетичний голос на основі 15-секундного фрагмента мовлення будь-якою мовою.

Використання такого ШІ викликає безліч етичних питань. За даними OpenAI, розробники прийняли політику використання Voice Engine, яка забороняє використовувати нейромережу, щоб видавати себе за інших людей або організацій без їхньої згоди. Для цього потрібно отримати "явну й усвідомлену згоду" від людини, чий голос копіюється. А також обов'язково зазначити, що голос був згенерований штучним інтелектом.

OpenAI пропонує кілька способів обмежити ризики, пов'язані з такими інструментами. Наприклад, поступова відмова від голосової автентифікації для доступу до банківських рахунків, розробка правил захисту голосів людей, підвищення поінформованості про дипфейки, а також створення систем для відстеження ШІ-контенту.

🖤

Сподобався цей матеріал? Приєднуйся до дизайн спільноти Pleex і разом ми зробимо нашу дизайн-культуру кращою.

9 нових нейромереж для генерації відео

PixArt-Σ — створює зображення в 4К

Vlogger – для анімації фото людини

Project Music GenAI Control – для створення музики

Sora — для генерації відео

Adobe GenStudio — для створення реклами

Image to SFX — для озвучування зображень

AI Playlist — для створення плейлистів

SIMA — для проходження ігор

Voice Engine — для копіювання голосу

7 практичних інструментів для роботи з інтерфейсами

10 сервісів для щоденної роботи дизайнера інтерфейсів

21 AI-інструмент для UI/UX дизайнерів

8 інструментів для веб-дизайну та анімації

15 найкращих додатків для анімації у 2025

Cursor AI + Figma: плагін для автоматизації проєктування інтерфейсів