Пользователи сгенерировали более 1,3 миллиона изображений всего за 48 часов с помощью нейросети Kandinsky 2.1 от Сбера
Напомним, что Сбер представил новую версию генеративной модели 4 апреля. Kandinsky 2.1 может сгенерировать изображения по их текстовому описанию на естественном языке за несколько секунд. Пользователь может создавать картины более чем в десяти стилях, включая «Киберпанк», «Аниме», «Малевич» и другие. Kandinsky 2.1 знает 101 язык и может дорисовывать части изображения, смешивать несколько рисунков, создавать картину в режиме бесконечного полотна.
Протестировать нейросеть можно в Telegram-боте, на промостранице модели, на fusionbrain.ai и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Также оценить возможности Kandinsky 2.1 можно в мобильном приложении Салют и на умных устройствах Sber при помощи команды «Запусти художника».
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Модель Kandinsky 2.1 обучена почти на 1,2 миллиарда пар «текст — изображение», а также на отдельно собранном датасете из двух миллионов пар высококачественных изображений. Он содержит картинки с описаниями текстов и лиц людей в областях традиционно сложных для нейросетей.
Высокое качество генерации обеспечивается за счёт прогрессивной архитектуры нейросети: у Kandinsky 2.1 новая, обученная специалистами Sber AI совместно с командой SberDevices модель автоэнкодера, используемая в основном для декодирования векторных представлений изображений, что позволяет создавать изображения в высоком разрешении. Kandinsky 2.1 включает 3,3 миллиарда параметров вместо двух миллиардов в предыдущей версии.