По экспертным оценкам, в 2023 году количество сгенерированных с помощью нейросетей изображений превысило 15 млрд. Это больше, чем количество фотографий, сделанных за последние 150 лет. Чаще всего креаторы пользовались Stable Diffusion, Midjourney, DALL-E и Adobe Firefly. В этом году к списку добавилась Meta*, интегрировавшая в свои соцсети и мессенджеры Meta AI, бесплатный генератор картинок и коротких видео.
Качественные изображения можно создать с помощью любой из этих моделей. Однако они различаются интерфейсами, функциональностью и стоимостью. Разбираемся в этих различиях.
Stable Diffusion — генеративная модель от компании Stability с открытым исходным кодом для создания изображений. Она стала популярной благодаря доступности и гибкости.
Это диффузионная модель: она создает изображение, начиная с полного шума и постепенно превращая его в осмысленную картинку. Представьте, что у вас есть фотография, которую вы медленно размываете, пока она не превратится в абстрактное пятно. Диффузионные модели делают обратное: они создают случайную комбинацию пикселей и шаг за шагом удаляют помехи, пока не получится четкое изображение.
Stable Diffusion — универсальная модель. Ее можно установить на компьютер и пользоваться бесплатно локально, если необходимость устанавливать Python не вызывает паническую атаку. Еще одно важное условие для быстрого и удобного использования Stable Diffusion — хорошая видеокарта. От объема памяти напрямую зависит скорость работы программы. Минимальным требование — Nvidia на 8 Гб. Для стабильности работы желательно иметь не меньше 16 Гб оперативной памяти. К тому же понадобится много свободного места на жестком диске (от 20 Гб): одна модель может занимать от 2 до 8 Гб.
Настройка интерфейса Automatic1111 для работы со Stable Diffusion занимает около 15 мин. В сети есть множество руководств, которые помогут пройти все этапы установки (инструкция для PC и для Mac с Apple Silicon). Можно использовать и другие интерфейсы для управления моделью на своем компьютере: DreamBooth и ComfyUI. Для пользователей Mac есть еще бесплатное приложение DiffusionBee, но качество получаемых в нем картинок невысокое из-за того, что используется упрощенная модель.
Для пользователей без технической подготовки и мощного компьютера подойдет веб-интерфейс. У Stable Diffusion это Dream Studio. Сервис позволяет использовать в качестве промта как текст, так и текст с изображением. Бесплатно можно сгенерировать минимум 25 картинок. Дальше сервис стоит $20 в месяц или $10 за 1 тыс. изображений.
Есть также сервисы-комбайны, которые позволяют использовать возможности Stable Diffusion по максимуму, задействуя разные модели генерации. Это браузерные приложения InvokeAI и Phygital+. В них можно сгенерировать изображения с использованием разных моделей, моментально удалить фон, повысить разрешение картинки, перенести стиль с одной фотографии на другую и многое другое. С помощью InvokeAI и Phygital+ дизайнеры выстраивают собственную «производственную линию», объединяя различные нейросети в подобие фабричного конвейера.
{{slider-gallery}}
Midjourney, пожалуй, самая известная генеративная модель, так как созданные с помощью нее изображения часто вирусятся в соцсетях и отличаются высоким качеством и правдоподобностью. Это, например, папа Франциск в пуховике или персонажи «Звездных войн» в стилистике Болливуда. Сейчас Midjourney 6 занимает первую строчку в рейтинге Text to Image Arena, на который ориентируются многие дизайнеры и иллюстраторы.
На старте Midjourney сделала ставку на партнерство с мессенджером Discord. С одной стороны, это позволило им запуститься без собственного пользовательского интерфейса, с другой — построить в Discord сообщество активных пользователей. Сейчас проходит альфа-тестирование веб-интерфейса Midjourney, который сделает сервис более удобным.
Одно из преимуществ Midjourney в том, что пользователи могут создавать в нем изображения, добавив в запрос от двух до 20 картинок. С помощью функции inpainting можно заменить фрагмент полученной картинки на что-то другое, а через outpainting — сделать картинку длиннее и шире, генерируя ее продолжение.
Для использования Midjourney нужно зарегистрироваться в Discord и на их официальном сайте. Чтобы получить доступ к альфа-версии, необходимо подписаться на участие в альфа-тестировании через сайт сервиса. В 2023 году Midjourney отключила возможность создавать картинки бесплатно, поэтому, чтобы пользоваться сервисом, нужно заплатить от $10 до $30 в зависимости от того, сколько серверного времени вам необходимо для генераций картинок.
{{slider-gallery}}
Adobe Firefly — передовой набор инструментов для генерации изображений, интегрированный в популярные продукты Adobe: Photoshop, Illustrator и Lightroom. Некоторыми функциями можно пользоваться на сайте проекта, но в полную силу Firefly раскрывается для тех, кто хорошо знаком с профессиональным софтом Adobe.
Так же как в Midjourney, в Firefly можно восстановить или заменить часть изображения (inpainting) и расширить его за пределы изначальных границ (outpainting). Сервис также умеет генерировать векторную графику и в один клик перекрашивать векторные изображения.
Для использования всех возможностей Firefly необходима подписка на один из инструментов Adobe или на пакет Creative Cloud. Месячная стоимость при покупке годовой подписки варьируется от $5 до $69. Те, кто не поленится воспользоваться VPN или сделать покупку, например, в Турции, смогут сэкономить (подписка для пользователей в США дороже).
DALL-E — это нейронная сеть, разработанная OpenAI и интегрированная в ChatGPT. Она генерирует изображения на основе текстовых запросов, используя трансформер, тип машинного обучения, который понимает контекст. Благодаря удобному интерфейсу и интуитивно понятному процессу можно легко создавать изображения, даже если у вас нет технических знаний. Вы также можете обсудить свою задачу с ChatGPT и вместе с ним придумать подходящий текстовый запрос для создания изображения.
Нейросеть также используется в приложении Designer от Microsoft, в расширении Image Creator для браузера Edge и в поисковике Bing, что позволяет создавать картинки прямо в нем.
Meta* предлагает бесплатные инструменты для генерации изображений, встроенные в WhatsApp и другие продукты корпорации. Сервис бесплатный и, кроме мессенджеров и социальных сетей, доступен также на сайте meta.ai. Продукт был запущен в апреле 2024 года, но уже сейчас понятно, что за счет огромного охвата компании он станет одним из самых популярных.
Качество генерации изображений — субъективный фактор. Рейтинг Text to Image Arena составляет топ-лист моделей по оценкам пользователей, который может подсказать, что сейчас работает лучше всего. Я рекомендую попробовать разные решения самостоятельно и найти оптимальное для своих задач.
Все сервисы по-разному реагируют на одни и те же промты, но с опытом взаимодействия приходит понимание, как адаптировать свои запросы к алгоритмам конкретной модели. Сделать промты более изобретательными и эффективными поможет сервис Prompt Builder.
{{slider-gallery}}
Ниже — несколько примеров картинок, сгенерированных в разных нейросетях по одному запросу.
Промт: «А rugged coastline eroded by relentless waves, towering cliffs that's been sculpted into dramatic arches and hidden coves, seabirds soar above, mist swirls along the horizon, realism» («Изрезанная береговая линия, размытая безжалостными волнами, высокие скалы в виде эффектных арок и скрытых бухт, парящие в небе морские птицы, клубящийся на горизонте туман, реализм»).
{{slider-gallery}}
Промт: «A realistic dorm room, interior design, golden hour, noisy, urban, atmospheric» («Реалистичная комната в общежитии, дизайн интерьера, золотой час, шумный, городской, атмосферный»).
{{slider-gallery}}
Промт: «Commercial photography, a perfume bottle, pastel blue background, dreamy, soft lighting, centered, flowers» («Коммерческая фотография, флакон духов, пастельно-синий фон, мечтательное, мягкое освещение, по центру, с цветами»).
{{slider-gallery}}
Промт: «А comic panel of a distraught Tony Stark saying 'Captain is...» («Комикс, на котором обезумевший Тони Старк говорит: „Капитан…“»).
{{slider-gallery}}
Тест в очередной раз подтверждает, что Midjourney создает наиболее эстетичные и фотореалистичные изображения. DALL-E и Midjourney единственные неплохо справляются с помещением текста на картинку. Инструмент от Meta* способен создавать эффектные изображения с большим количеством деталей.
Отдельно стоит сказать о трех бесплатных сервисах, уникальность которых не в используемых моделях, а в интересном функционале для широкой публики.
Сервис Stylar AI ограничен 200 действиями в месяц. Под его капотом — Stable Diffusion 3. С помощь него вы можете положить картинки на виртуальный холст и превратить свой коллаж в цельную картинку, стиль которой будет задан вашим промтом.
{{slider-gallery}}
В Leonardo AI, кроме всего прочего, есть функция переноса стиля. Загрузите изображение с желаемой стилистикой, выберите «Ссылка на стиль» из выпадающего списка и отрегулируйте влияние стиля от Low (незначительные улучшения) до Max (полное преобразование).
{{slider-gallery}}
Krea позволяет создавать изображения, ориентируясь на промт-картинку на входе, которую можно менять в реальном времени. Порой это помогает достичь желаемого результата быстрее, чем в других сервисах.
{{slider-gallery}}
Обзор генеративных инструментов можно завершить схемой, собранной по двум главным критериям: простота использования и цена. Так, мы получаем четыре блока.
{{slider-gallery}}
Если останавливаться на отдельных преимуществах, то можно сказать, что Stable Diffusion отличается доступностью и универсальностью, Midjourney впечатляет качеством изображений, Adobe Firefly сильна интеграцией с профессиональными инструментами, а DALL-E — интуитивно понятной генерацией. Для простых ситуаций есть бесплатные и ограниченно бесплатные инструменты: Playground AI, Lexica, Craiyon, Stylar AI, NightCafe и Leonardo AI. Подобрать сервис под свой запрос можно в специальных каталогах — например, в AI Library от Phygital+.
* Признана экстремистской и запрещена в России.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.