Нейросети и дизайн: заменит ли машина человека в творчестве?

9 ноября 2022 г.

Искусственный интеллект достиг сегодня такого уровня развития, что способен на основе текстовых описаний или эскизов создавать полноценные творческие работы.

Фотореалистичные изображения, трехмерные визуализации, логотипы, фирстили все это умные алгоритмы генерируют за считанные секунды. Значит ли это, что работа дизайнера в скором времени окажется никому не нужной? Давайте разбираться.

Эволюция нейросетей-дизайнеров

Идея нейронных сетей зародилась еще в 40-х годах XX века. В 70–90-х годах обучаемые нейросети активно использовали на практике. Умные алгоритмы предсказывали строение белковых соединений, прогнозировали котировки акций на биржах, помогали создавать уникальные конструкции автомобилей. Несколько лет назад нейросети доказали, что могут оперировать не только точными данными, но и симулировать некий чувственный опыт создавать произведения искусства.

Из текста в 2D

Нейронные сети оказались в центре внимания индустрии дизайна в сентябре 2012 года. Тогда ИИ AlexNet выиграл конкурс ImageNet Large Scale Visual Recognition Challenge. Нейросеть доказала свою способность распознавать, анализировать и классифицировать изображения.

В 2017 году была опубликована научная статья под названием «Внимание это все, что вам нужно». В ней описывались дизайн и архитектура Transformer, нейронной сети, созданной для обработки естественного языка. Компания OpenAI доказала эффективность этой архитектуры, создав в 2020 году GPT-3 третье поколение языковой модели для ИИ.

Способность распознавать изображения и объекты и создавать на их основе связный текст привела к следующему логическому шагу в эволюции нейронных сетей: преобразованию текста в изображения.

Изображение GauGAN. Пейзаж, созданный нейросетью GauGAN

В 2019 году компания Nvidia представила GauGAN нейросеть, которая превращала любую комбинацию слов и рисунков в реалистичное изображение. Пользователи могут просто ввести фразу, например, «озеро перед горой», нажать на кнопку и создать сцену в реальном времени. На основе модели GauGAN в Nvidia двумя годами позже разработали сервис Canvas, с помощью которого можно получать неотличимые от реальных изображения из простейших эскизов.

В январе 2021 года появилась DALL-E нейросеть для генерации двухмерных изображений по текстовому запросу. В 2022 году была создана DALL-E 2. Ее доработанные алгоритмы позволяют не только получать фотореалистичные картинки, но и редактировать их.

Изображение, созданное DALL-E-2. Такое изображение получилось у DALL-E-2, созданное по тексту «Тарелка супа это портал в другое измерение, нарисованный на стене пещеры»

За последние пару лет миру было представлено множество генераторов преобразования текста в изображение. Некоторые из них выделяются своей уникальностью. Например, исследовательская группа Google одновременно работает над двумя проектами, которые используют свои собственные системы искусственного интеллекта для создания изображений.

Первый проект Parti (сокр. Pathways Auto-Regression Text-to-Image). Эта нейросеть распознает отдельные слова в тексте, сопоставляет их с определенными тегами и моделирует на их основе максимально точное изображение.

Изображение от нейросети PARTI. Так PARTI интерпретировал запрос о белке, которая дарит птичке свежее яблоко

Вторая нейросеть от Google называется Imagen. Эта модель искусственного интеллекта отличается от большинства аналогов тем, что обучается только на текстовых данных. Imagen анализирует текст и прогнозирует базовое изображение с небольшим разрешением. Оно становится основной для изображения с высокой детализацией.

Изображение от нейросети Imagen. Imagen и ее версия запроса о симпатичном корги, который живет в конуре из японских роллов

Из 2D в 3D

Незадолго до DALL-E нейронные сети научились создавать 3D-изображения практически с таким же качеством и скоростью, как 2D. Такая визуализация стала возможной благодаря методу полей нейронных излучений ( NeRF ). Здесь ИИ получает исходные данные в виде 2D-изображения и строит на его основе трехмерную модель.

Мы видим мир трехмерным, потому что солнечные лучи отражаются от предметов и попадают на нашу сетчатку. NeRF моделирует пространство по тому же принципу.

Смоделированные лучи света попадают в определенную точку на поверхности и приближаются к поведению света в физическом мире. Эти световые лучи имеют определенную яркость и цветовую характеристику на их основе NeRF решает, в какой цвет «окрасить» пиксель, зная его координаты на экране. Таким образом, любая 3D-сцена становится функцией, зависящей от координат x, y и z и направления взгляда.

NeRF может моделировать трехмерное пространство любой сложности. Качество рендеринга также имеет большое преимущество. На выходе вы получаете фотореалистичную 3D-сцену, в которой не используются текстуры.

Нейросеть-художник

В августе 2022 года технология нейросетей сделала еще один шаг на пути к симуляции творчества.

Гейм-дизайнер Джейсон М. Аллен отправил на художественный конкурс в Колорадо три своих работы в категории «цифровое искусство/цифровая фотография». Одна из них «Théâtre D' Spatial» заняла первое место среди 18 произведений искусства. Изображение представляло собой сюрреалистичное сочетание ренессанса и стимпанка и походило на иллюстрацию к какому-нибудь научно-фантастическому произведению.

Картина-победитель Théâtre D' Spatial

Узнав о победе, Аллен опубликовал твит, в котором признался картину-победитель создала нейросеть Midjourney на основе текстовой команды. Пост вызвал шквал гневных комментариев. Многие художники были возмущены.

Как бы то ни было, Midjourney привлекла внимание многих деятелей искусства. Шутка ли нейросеть стала первым в своем роде ИИ, который победил человека в творчестве. Впрочем, сам Аллен приложил немало усилий, чтобы получить изображение, неотличимое от рукотворного.

Вначале художник поиграл с формулировкой, которая привела к тому, что Midjourney создала изображения женщин в платьях и космических шлемах нечто среднее между викторианским стилем и космической тематикой. Далее Аллен дополнял текст более точными описаниями для настройки освещения и цветовой гаммы. Затем он немного доработал готовое изображение в Photoshop. На все работы у него ушло почти 80 часов и 900 итераций.

Как нейросети обучаются?

Чтобы искусственные нейронные сети обучались, им требуется масса информации. Так, если вы хотите научить ИИ распознавать собаку, ваш обучающий набор будет состоять из тысяч изображений собак. Все эти изображения будут помечены как «собака».

После ввода и анализа этой информации нейросеть считается обученной. С этого момента она будет классифицировать данные на основе того, что, по ее мнению, она видит. В процессе самообучения ИИ сопоставляет и анализирует стартовые и выходные данные. Если информация не совпадает, алгоритм корректирует сигнал и адаптирует его к заданным параметрам. Чем больше сигналов, тем быстрее нейросеть привыкает к сложным переменным. Например, учится определять не просто категорию «собака», но и породу, окрас, возраст и прочее.

Популярные модели нейросетей

Большинство популярных нейросетей, вроде DALL-E и GauGAN, основаны на генеративно-состязательной модели (GAN). Эта модель работает по принципу глубокого обучения, в котором задействованы:

  • Генератор синтезирует изображение.
  • Дискриминатор обучен на миллионах реальных изображений ландшафта, дает генератору обратную связь о том, как сделать изображения более реалистичными.

Таким образом, нейросеть по модели GAN обучает сама себя. ИИ получает массив данных и со временем все более точно отделяет ошибочные сигналы от правдоподобных. Даже при одинаковых запросах нейросеть способна выдавать уникальные результаты на основе полученного опыта. Так ИИ учится работать с различными стилями и нелогичными формулировками. Например, вот что получилось у DALL-E на основе запроса «мягкое кресло в виде авокадо»:

Продвинутые версии нейросетей DALL-E-2, Imagen и Midjourney основаны на более быстрой и гибкой модели LDM. Сначала ИИ генерирует на базе текста простейшее изображение с низким разрешением. Затем нейросеть через несколько итераций удаляет «шум» в скрытых слоях и выводит подробные контуры объектов. На этих картах ИИ размечает элементы, например, песок, траву, небо, и задает им координаты. Постепенно нейросеть прогнозирует оптимальное место для каждого элемента, делает их более четкими и естественными.

Например, вот что получилось у нейросети Stable Diffusion по запросу «банковская карта в стакане с водой»:

Как бренды используют нейросети в дизайне

Бренды применяют нейросети в коммерческих целях довольно давно. Искусственный интеллект прогнозирует поведение пользователей в супермаркетах, определяет кредитные риски, планирует логистические маршруты.

Естественно, бизнес обратил внимание и на такой мощный инструмент, как создание изображений на основе текста. Действительно, зачем нанимать и содержать штат дизайнеров, когда можно задать текстовый запрос и получить уникальный результат за считанные минуты?

Так, итальянское подразделение компании Nutella использовало нейросеть для дизайна банок с шоколадной пастой. На основе алгоритма ИИ комбинировал различные узоры и цвета, а затем присваивал каждому варианту индивидуальный идентификационный код. В итоге нейросеть создала 7 миллионов уникальных этикеток.

Создать уникальное оформление для печатного издания с помощью ИИ? Легко! В 2022 году издание Cosmopolitan для июньского номера представило первую в мире обложку, созданную нейросетью:

Все большее распространение набирает тренд веб-дизайна с помощью ИИ. Например, на платформе logoai. вы можете создать уникальный логотип для своей компании. Достаточно ввести название бренда, отрасль, предпочитаемую цветовую гамму и шрифт. Вот что получилось, когда мы поставили перед нейросетью разработать уникальный логотип для «Совкомбанка»:

По схожему принципу работает нейросеть « Николай Иронов » от «Студии Артемия Лебедева». При этом искусственный дизайнер может создать не только логотип, но и полноценный фирменный стиль со всеми элементами от веб-сайта до визиток.

Люди больше не нужны?

На волне популярности нейросетей, создающих изображения, у дизайнеров неизбежно возникают опасения не останутся ли они в скором времени без работы? Не останутся, и вот почему.

Каким бы совершенным ни был ИИ, работа нейросети основана на чисто технических процессах собрать данные, обработать, выдать результат. Алгоритм может выполнить рендеринг изображения, отретушировать фото, создать определенный спецэффект. Однако нейросеть не способна придумать уникальную идею. Чувства, эмоции, воображение все это машинам пока неподвластно.

По сути, нейросети в обозримом будущем будут выступать лишь в качестве «умных» помощников. Тогда за человеком останется роль творца и базового учителя. Живой дизайнер будет передавать нейросети свои знания и навыки. Да, ИИ самообучаемая структура. Но ведь любой процесс обучения необходимо держать под контролем, обновлять, дополнять новыми данными. Таким образом, вполне вероятно появление новой профессии на основе нескольких компетенций например, дизайнер-программист.

Стать партнером Халвы

Поделиться: