"Сбер" представил нейросеть Kandinsky 2.1, способную преобразовывать текст в изображение
МОСКВА, 4 апр — ПРАЙМ. "Сбер" представил новую версию своей нейросети Kandinsky — Kandinsky 2.1, российского аналога популярной Midjourney, которая способна создавать высококачественные изображения по текстовому описанию, генерировать изображения, похожие на заданные и дорисовывать картинки, рассказали в компании.
"Новая генеративная модель "Сбера" — Kandinsky 2.1 — способна всего за несколько секунд создавать высококачественные изображения по их текстовому описанию на естественном языке. Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting)", — говорится в сообщении. При этом модель понимает запросы на 101 языке и умеет рисовать в различных стилях.
Предыдущая версия этой нейросети — Kandinsky 2.0 — была представлена 23 ноября 2022 года. "Новая модель Kandinsky 2.1 унаследовала веса предыдущей версии, обученной на 1 миллиарде пар "текст — изображение", и была дополнительно обучена на 170 миллионах пар "текст — изображение" высокого разрешения. Затем она дообучалась на отдельно собранном датасете из 2 миллионов пар качественных изображений", — добавляют в компании, отмечая, что в последний датасет попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей.
"Нейросеть также была усовершенствована за счет новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 миллиарда параметров вместо 2 миллиардов в Kandinsky 2.0. Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP", — добавляют в "Сбере".
Модель умеет визуализировать любой контент и может применяться в различных отраслях, полагают в компании. "Думаю, у каждого найдется задача для Kandinsky 2.1, и поэтому улучшенная модель, как и ее предыдущая версия, находится в открытом доступе: протестировать ее может любой желающий, причем бесплатно", — отмечает первый заместитель председателя правления Сбербанка Александр Ведяхин.
Оценить возможности нейросети можно в том числе на промо-странице модели, на платформе Fusion Brain и в Telegram-боте.
Руководитель департамента машинного обучения и искусственного интеллекта дирекции по ИИ и цифровым продуктам "Билайна" Дмитрий Ермилов, сравнивая нейронные сети Midjourney и Kandinsky, прокомментировал РИА Новости, что обе они относятся к классу диффузионных, то есть в их основе лежит одна и та же технология.
При этом российский аналог сейчас открыт для свободного доступа и выложен на github, в отличие от Midjourney, бесплатный доступ к которому ограничили в конце марта. Кроме того, Kandinsky 2.1 мультиязычен, тогда как Midjourney больше сфокусирована на английском и китайском языках, указывает эксперт.
"Качество картинок сравнивать достаточно сложно, но тесты показывают, что и та, и другая нейронная сеть предоставляет картинки высокого уровня. Сейчас можно наблюдать даже различные сериалы или короткометражные фильмы, которые сгенерированы той и другой нейросетью", — добавил Ермилов.
https://1prime.ru/banks/20230404/840278502.html