Компанія Tencent зробила важливий крок у розвитку штучного інтелекту, представивши HunyuanVideo — першу у світі відкриту модель генерації відео з доступним кодом, ваговими коефіцієнтами та іншими ключовими компонентами. Ця ініціатива спрямована на покращення доступності передових технологій для створення відео, що раніше залишались виключно в закритих моделях.
Читайте також: Apple покаже свій штучний інтелект на майбутній презентації
Що таке HunyuanVideo?
HunyuanVideo є проривом у сфері генерації відео, адже поєднує відкритість та передову технологію. Вона оснащена понад 13 мільярдами параметрів, що робить її найбільшою відкритою моделлю у цій галузі. Tencent заявляє, що якість створених відео перевищує можливості провідних закритих систем завдяки:
- Високій якості зображення;
- Різноманітності рухів;
- Точному відповідності між текстом і відео;
- Стабільності генерації.
Tencent також перевірила модель через професійну оцінку експертів. Результати підтвердили, що HunyuanVideo випереджає закриті моделі за багатьма критеріями.
Інноваційний підхід до генерації відео
HunyuanVideo реалізує унікальний дизайн на основі технології Transformer із використанням механізму Full Attention. Для досягнення високої продуктивності модель працює за принципом «поділ і поєднання»:
- Етап подвійного потоку:
Текстові та відео-маркери обробляються окремо через спеціалізовані блоки Transformer. Це дозволяє кожній модальності вивчати унікальні механізми модуляції без взаємного впливу. - Етап єдиного потоку:
Текстові та відео-маркери об’єднуються, щоб забезпечити інтеграцію мультимодальної інформації. Такий підхід фіксує складні взаємодії між візуальною та семантичною інформацією, що сприяє покращенню загальної якості генерації відео.
Відкритий код для спільного розвитку
Tencent прагне подолати бар’єр між базовими моделями з відкритим і закритим кодом. З цією метою компанія публікує вихідний код HunyuanVideo, вагові коефіцієнти та демонстраційні приклади. Відтепер розробники можуть використовувати ці ресурси для створення якісного контенту на базі ШІ.
Ключові ресурси:
- Huggingface: Докладна інформація про проект.
- GitHub: Вихідний код для моделі.
- Офіційний сайт HunyuanVideo: Демонстрації створених відео.
HunyuanVideo стає не лише інструментом, а й платформою для розширення можливостей розробників у сфері генерації відео. Її відкритість сприятиме розвитку нових продуктів, полегшить доступ до передових технологій та забезпечить інноваційні рішення в креативній індустрії.
Читайте більше на офіційних платформах проекту та слідкуйте за новинами у сфері ШІ!