10 вариантов использования GAN
Posted: Mon Jan 06, 2025 10:38 am
Генеративный ИИ — одна из последних известных технологий, способная создавать реалистичные изображения, текстовый и аудиоконтент за считанные минуты. Gartner прогнозирует, что к 2025 году 10% всех сгенерированных данных будут созданы с помощью генеративного ИИ.1
Генеративно -состязательная сеть (GAN) — это тип генеративной модели искусственного интеллекта, которая использует две нейронные сети уникальным и состязательным образом для генерации новых данных, которые напоминают данные обучения.
Некоторые технически сложные случаи использования, такие как моделирование македония whatsapp номер телефона вероятностных распределений или выборка из произвольного распределения, могут лучше подходить для других типов генеративных моделей ИИ, таких как вариационные автоэнкодеры (VAE) или генеративные стохастические сети (GSN).
Однако большинство популярных приложений генеративного ИИ, используемых в настоящее время, выполняются с помощью GAN. В этой статье мы объясним 10 вариантов использования GAN.
10 лучших вариантов использования GAN
1- Генерация изображения
Генеративно-состязательные сети позволяют пользователям создавать фотореалистичные изображения на основе определенных текстовых описаний (см. Рисунок 1), таких как:
Параметр
Предмет
Стиль
Расположение
Рисунок 1: Сгенерированное изображение «бегущего авокадо в стиле Магритта»
Источник: DALL-E
2- Перевод изображения в изображение
GAN создает поддельные изображения из входных изображений, преобразуя внешние характеристики, такие как цвет, среда или форма, сохраняя при этом внутренние компоненты (см. Рисунок 2). Это можно использовать как общий метод редактирования изображений.
Рисунок 2: Пример манипулирования атрибутами лица
Источник: «FAE-GAN: редактирование атрибутов лица с многомасштабной нормализацией внимания»2
3- Семантический перевод изображения в фотографию
Можно генерировать изображения на основе семантического изображения или эскиза, используя генеративно-состязательные сети (см. Рисунок 3). Эта возможность имеет ряд практических применений, особенно в секторе здравоохранения, где она может помочь в постановке диагнозов.
Рисунок 3. Пример семантического перевода изображения в фотографию.
Источник: «Создание синтетических схем распределения вероятностей пространства на основе обученных условных сетей GAN»3
4- Супер разрешение
GAN может улучшить качество видео и изображений (см. Рисунок 4). Он восстанавливает старые изображения и фильмы, обновляя их до разрешения 4K или выше, генерируя 60 кадров в секунду вместо 23 или меньше, удаляя шум и добавляя цвет.
Рисунок 4: Восстановление изображений с помощью GAN.
Источник: «На пути к реальному восстановлению слепого лица с помощью генеративной лицевой априорной коррекции»4
5- Видеопрогноз
Система видеопрогнозирования с генеративно-состязательными сетями способна:
понимать временные и пространственные элементы видео
сгенерировать следующую последовательность на основе этого понимания (как показано на рисунке 5)
различать вероятные и маловероятные последовательности
Рисунок 5. Результаты прогнозирования для разбиения на тестовые действия. a: Входные данные, b: Наземные данные, c: FutureGAN.
Источник: «FutureGAN: прогнозирование будущих кадров видеопоследовательностей с использованием пространственно-временных 3D-сверток в прогрессивно растущих GAN»5
6- Преобразование текста в речь
Генеративные состязательные сети облегчают генерацию реалистичных речевых звуков. Дискриминаторы действуют как тренеры, которые совершенствуют голос, подчеркивая, корректируя и изменяя тон.
Технология преобразования текста в речь имеет различные коммерческие применения, в том числе:
Образование
Маркетинг
Подкастинг
Реклама
Например, преподаватель может перевести свои лекции в аудиоформат, чтобы сделать их более интересными, и этот же подход можно использовать для создания образовательных ресурсов для людей с нарушениями зрения.
7- Передача стиля
Сети GAN можно использовать для переноса стиля с одного изображения на другое, например, для создания картины в стиле Винсента Ван Гога из фотографии пейзажа (см. рисунок 6).
Рисунок 6. CycleGAN генерирует дизайны в стиле разных художников и художественных жанров, таких как Моне, Ван Гог, Сезанн и укиё-э.
Источник: «Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей»6
8- Генерация 3D-объектов
Генерация форм на основе GAN позволяет создавать формы, которые больше напоминают исходный источник. Также можно генерировать и изменять подробные формы для достижения желаемого результата. Смотрите 3D-объекты, сгенерированные GAN, на рисунке 7 ниже.
Рисунок 7. Формы, синтезированные с помощью 3D-GAN.
Источник: «Изучение вероятностного скрытого пространства форм объектов с помощью 3D генеративно-состязательного моделирования»7
На видео ниже показан процесс генерации объекта.
9- Генерация видео
GAN можно использовать для создания видео, например, для синтеза новых сцен в фильме или создания новых рекламных роликов. Однако такой контент, созданный GAN, называемый deepfakes, может быть трудно или невозможно отличить от настоящих медиа, что влечет за собой серьезные этические последствия (см. видео ниже).
Генеративно -состязательная сеть (GAN) — это тип генеративной модели искусственного интеллекта, которая использует две нейронные сети уникальным и состязательным образом для генерации новых данных, которые напоминают данные обучения.
Некоторые технически сложные случаи использования, такие как моделирование македония whatsapp номер телефона вероятностных распределений или выборка из произвольного распределения, могут лучше подходить для других типов генеративных моделей ИИ, таких как вариационные автоэнкодеры (VAE) или генеративные стохастические сети (GSN).
Однако большинство популярных приложений генеративного ИИ, используемых в настоящее время, выполняются с помощью GAN. В этой статье мы объясним 10 вариантов использования GAN.
10 лучших вариантов использования GAN
1- Генерация изображения
Генеративно-состязательные сети позволяют пользователям создавать фотореалистичные изображения на основе определенных текстовых описаний (см. Рисунок 1), таких как:
Параметр
Предмет
Стиль
Расположение
Рисунок 1: Сгенерированное изображение «бегущего авокадо в стиле Магритта»
Источник: DALL-E
2- Перевод изображения в изображение
GAN создает поддельные изображения из входных изображений, преобразуя внешние характеристики, такие как цвет, среда или форма, сохраняя при этом внутренние компоненты (см. Рисунок 2). Это можно использовать как общий метод редактирования изображений.
Рисунок 2: Пример манипулирования атрибутами лица
Источник: «FAE-GAN: редактирование атрибутов лица с многомасштабной нормализацией внимания»2
3- Семантический перевод изображения в фотографию
Можно генерировать изображения на основе семантического изображения или эскиза, используя генеративно-состязательные сети (см. Рисунок 3). Эта возможность имеет ряд практических применений, особенно в секторе здравоохранения, где она может помочь в постановке диагнозов.
Рисунок 3. Пример семантического перевода изображения в фотографию.
Источник: «Создание синтетических схем распределения вероятностей пространства на основе обученных условных сетей GAN»3
4- Супер разрешение
GAN может улучшить качество видео и изображений (см. Рисунок 4). Он восстанавливает старые изображения и фильмы, обновляя их до разрешения 4K или выше, генерируя 60 кадров в секунду вместо 23 или меньше, удаляя шум и добавляя цвет.
Рисунок 4: Восстановление изображений с помощью GAN.
Источник: «На пути к реальному восстановлению слепого лица с помощью генеративной лицевой априорной коррекции»4
5- Видеопрогноз
Система видеопрогнозирования с генеративно-состязательными сетями способна:
понимать временные и пространственные элементы видео
сгенерировать следующую последовательность на основе этого понимания (как показано на рисунке 5)
различать вероятные и маловероятные последовательности
Рисунок 5. Результаты прогнозирования для разбиения на тестовые действия. a: Входные данные, b: Наземные данные, c: FutureGAN.
Источник: «FutureGAN: прогнозирование будущих кадров видеопоследовательностей с использованием пространственно-временных 3D-сверток в прогрессивно растущих GAN»5
6- Преобразование текста в речь
Генеративные состязательные сети облегчают генерацию реалистичных речевых звуков. Дискриминаторы действуют как тренеры, которые совершенствуют голос, подчеркивая, корректируя и изменяя тон.
Технология преобразования текста в речь имеет различные коммерческие применения, в том числе:
Образование
Маркетинг
Подкастинг
Реклама
Например, преподаватель может перевести свои лекции в аудиоформат, чтобы сделать их более интересными, и этот же подход можно использовать для создания образовательных ресурсов для людей с нарушениями зрения.
7- Передача стиля
Сети GAN можно использовать для переноса стиля с одного изображения на другое, например, для создания картины в стиле Винсента Ван Гога из фотографии пейзажа (см. рисунок 6).
Рисунок 6. CycleGAN генерирует дизайны в стиле разных художников и художественных жанров, таких как Моне, Ван Гог, Сезанн и укиё-э.
Источник: «Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей»6
8- Генерация 3D-объектов
Генерация форм на основе GAN позволяет создавать формы, которые больше напоминают исходный источник. Также можно генерировать и изменять подробные формы для достижения желаемого результата. Смотрите 3D-объекты, сгенерированные GAN, на рисунке 7 ниже.
Рисунок 7. Формы, синтезированные с помощью 3D-GAN.
Источник: «Изучение вероятностного скрытого пространства форм объектов с помощью 3D генеративно-состязательного моделирования»7
На видео ниже показан процесс генерации объекта.
9- Генерация видео
GAN можно использовать для создания видео, например, для синтеза новых сцен в фильме или создания новых рекламных роликов. Однако такой контент, созданный GAN, называемый deepfakes, может быть трудно или невозможно отличить от настоящих медиа, что влечет за собой серьезные этические последствия (см. видео ниже).