«Сбер» представил Kandinsky 2.1 — ещё одну нейросеть для генерации картинок по текстовым описаниям

«Сбер» представил Kandinsky 2.1 — ещё одну нейросеть для генерации картинок по текстовым описаниям

05.04.2023
Новости Искусственный интеллект

Команда разработчиков из «Сбера» представила новую версию нейросети Kandinsky, которая позиционируется как отечественный аналог популярного сервиса Midjourney на базе генеративного ИИ.

Представленную генеративную модель Kandinsky 2.1 можно будет использовать для создания изображений высокого качества на основе текстового описания. Утверждается, что нейросеть доступна всем желающим — по крайней мере, на данном этапе.

Нейросеть умеет смешивать несколько рисунков, изменять их по текстовому описанию, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель способна распознать текстовые запросы на 101 языке включая русский, рисование в разных стилях ей тоже доступна.

Kandinsky 2.1 разработали и обучили исследователи из структурного подразделения Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices.

Разработчики заявляют, что новая версия Kandinsky дополнительно обучена на 170 млн пар «текст — изображение» в дополнение к унаследованному ранее 1 млн таких же смысловых пар. Позже нейросеть дообучали на отдельно собранном датасете из 2 млн пар качественных изображений. Утверждается, что туда попали изображения с подробными описаниями в сложных для нейросетей категориях «тексты» и «лица людей».

Новая обученная модель автоэнкодера, которая используется в качестве декодера векторных представлений изображений, позволила кардинально улучшить генерацию изображений в высоком разрешении с лицами и не только.

Представители Sber AI утверждают, что новая модель умеет визуализировать любой контент и может применяться в различных отраслях. Например, в банковской сфере её можно использовать для создания персонализированных маркетинговых решений, ярких образов продуктов и удержания внимания клиентов.

Александр Ведяхин, первый заместитель Председателя Правления Сбербанка: «Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив самые передовые концепции. В результате мы разработали мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов. Оно открывает колоссальные возможности как для бизнеса, так и для населения. По сути, это ещё один важный шаг к AGI — сильному искусственному интеллекту. Думаю, у каждого найдётся задача для Kandinsky 2.1, и поэтому улучшенная модель, как и её предыдущая версия, находится в открытом доступе: протестировать её может любой желающий, причём бесплатно».

Опробовать нейросеть Kandinsky версии 2.1 можно на промостранице модели, есть ещё вариант с командой «Запусти художника» на умных устройствах Sber и в мобильном приложении «Салют», а также на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель дополнительно доступна для использования на платформе Fusion Brain и в Telegram-боте.