«Сбер» представил Kandinsky Video — первую в Россию ИИ-модель для создания видеороликов по текстовому описанию

22.11.2023

«Сбер» представил нейросеть Kandinsky Video — первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Данная модель умеет генерировать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду. Анонс состоялся в рамках международной конференции AI Journey, представлял новинку первый заместитель председателя правления Сбербанка Александр Ведяхин.

На официальном сайбе «Сбера» указывается, что архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполярных кадров, позволяющих достичь плавности движений в финальном ролике. В основу двух блоков положена новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.

Сгенерированный Kandinsky Video ролик — это непрерывная сцена с движением как объекта, так и фона. Разработчики утверждают, что последнее обстоятельство выгодно отличает видеоролики, созданные нейросетью «Сбера», от анимационных видеороликов, в которых динамика достигается за счёт моделирования пролёта камеры относительно статичной сцены.

В настоящий момент нейросеть создаёт видеоролики с разрешением 512×512 пикселей и различным соотношением сторон. Анонсированная ИИ-модель обучена на датасете из более чем 300 тысяч пар «текст — видео». Генерация видео занимает до трёх минут.

Александр Ведяхин, первый заместитель Председателя Правления Сбербанка: «Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач».

Любой желающий может попробовать оценить возможности нейросети Kandinsky Video на платформе fusionbrain.ai и в Telegram-боте, где можно оставить заявку на доступ.

Источник