Glossary
Diffusion Models

Что такое модель диффузии? Исчерпывающее определение

Что такое модель диффузии? Исчерпывающее определение

Что такое диффузионная модель?

Диффузионные модели - это класс вероятностных генеративных моделей. Они эффективны для уменьшения шума в машинном обучении, а также для синтеза изображений. Диффузионная модель постепенно разрушает данные, добавляя гауссовский шум, и учится обращать этот процесс для генерации образцов.

Например, при генерации изображений диффузионные модели добавляют шум к изображению сотни или тысячи раз, пока оно не станет изображением с чистым шумом. Затем они постепенно удаляют шум из изображения, пока в итоге не получится целостное изображение. Наконец, модель может генерировать новые разнообразные изображения, которые близко соответствуют исходному изображению.

Компоненты диффузионных моделей

Диффузионные модели основаны на трех базовых математических принципах:

Денуирующая диффузионная вероятностная модель (ДДВМ): ДДПМ используют две цепи Маркова, прямую и обратную, для добавления или удаления шума из данных. Они используют глубокие нейронные сети для обучения тому, как обратить шум, внесенный в прямую цепь, что в конечном итоге позволяет генерировать образцы данных, которые близко напоминают исходное распределение данных.
Генеративные модели на основе баллов (SGM): SGM работают путем добавления гауссовского шума к данным и оценки функций оценки с помощью глубокой нейронной сети, обученной шуму. Эти функции оценки направляют генерацию новых образцов данных, которые близко напоминают исходное распределение.
Стохастические дифференциальные уравнения (score SDEs): Score SDE обобщают DDPM и SGM для моделирования данных с бесконечным временным шагом или уровнем шума. Они используют SDE для моделирования процессов возмущения шума и генерации образцов, а для обесцвечивания сгенерированных данных используются функции оценки.

Как работают диффузионные модели?

Диффузионные модели работают на сложном уровне, включающем тщательное взаимодействие данных, контролируемого гауссовского шума и промежуточного латентного пространства. Этот сложный процесс в конечном итоге позволяет им создавать улучшенные версии исходных данных. Давайте углубимся в механику:

1. Роль гауссовского шума:.

Диффузионные модели систематически вводят гауссовский шум на протяжении всей своей работы. На каждом итерационном шаге к данным добавляется точно контролируемый гауссовский шум. Этот шум выбирается из гауссовского распределения, что обеспечивает тонкий контроль над уровнем шума.

# Добавление контролируемого гауссовского шума noisy\_data = original\_data + noise

2. Переход к нормальному распределению:

Чтобы облегчить процесс диффузии, входные данные подвергаются преобразованию. Сначала они преобразуются в нормальное распределение, характеризующееся средним значением 0 и стандартным отклонением 1. Это преобразование не только упрощает борьбу с шумом, но и закладывает основу для процесса диффузии.

# Преобразование данных в нормальное распределение normalized\_data = (original\_data - original\_data.mean()) / original\_data.std()

3. Процесс диффузионного моделирования:

Давайте разберем процесс диффузионного моделирования в контексте генеративных моделей, особенно для изображений или видео. Процесс диффузии состоит из двух основных фаз:

Процесс диффузии вперед: На этом этапе модель начинает путешествие по преобразованию пикселей чистого изображения. На протяжении сотен или даже тысяч шагов постепенно вводится гауссовский шум. Этот процесс разворачивается по цепочке Маркова, причем на каждом шаге вносится точно контролируемое количество шума. Изображение фактически "переходит" в состояние чистого шума.

# Forward diffusion process for step in range(num\_steps): noisy\_image = noisy\_image + step\_noise\[step]

Процесс обратной диффузии: Напротив, процесс обратной диффузии - это путь к чистоте. Этот этап включает в себя удаление шума, масштабирование и итерационные шаги, которые в конечном итоге приводят к появлению четкого изображения. Это похоже на наблюдение за тем, как туманное изображение постепенно приобретает резкость и фокусируется.

# Обратный процесс диффузии for step in reversed(range(num\_steps)): noisy\_image = noisy\_image - step\_noise\[step]

В процессе прямой диффузии важно отметить, что масштабирование значений пикселей является ключевым шагом перед дальнейшим добавлением шума. Пропуск этого шага может привести к перенасыщению изображения, при котором теряются детали.

# Масштабирование значений пикселей scaled\_image = original\_image \* scaling\_factor

4. Использование конволюционных нейронных сетей (CNN):.

В процессе обратной диффузии важнейшую роль играют конволюционные нейронные сети (CNN). При получении изображения, окутанного чистым шумом, эти нейронные сети умело очищают его от шума. Они умело удаляют шум, создавая четкое, целостное изображение, которое в точности повторяет оригинал.

5. Обучение для будущих поколений:

После обучения диффузионная модель готовится к созданию новых изображений. Для этого в исходные данные намеренно вносится шум. Затем модель берет на себя ответственность, используя свои знания в области денуазинга для создания новых, нетронутых версий входных данных.

# Генерирование новых изображений путем введения шума new\_image = noisy\_input\_data + generated\_noise

Промежуточное латентное пространство в современных диффузионных моделях:

В области современных моделей диффузии изображений разворачивается интересный поворот. В этих моделях часто появляется третий игрок - промежуточное латентное пространство. Вместо того чтобы работать непосредственно с пикселями изображения, процесс диффузии происходит в этом латентном пространстве. Это новшество повышает эффективность и действенность диффузионных моделей, позволяя осуществлять более тонкие и контролируемые преобразования.

Применение диффузионных моделей в AI/ML

Диффузионная модель - подход, набирающий популярность в генеративном моделировании благодаря множеству реальных примеров использования. Он используется для генерации изображений, преобразования текста в изображение, сверхразрешения изображений, генерации естественного языка и т. д.

Генерация естественного языка

Обработка естественного языка (NLP) имеет множество реальных применений в современном мире ИИ. Благодаря своей способности давать разнообразные результаты, диффузионные модели находят широкое применение в генерации естественного языка (NLG). Они позволяют решать многие задачи NLG в больших языковых моделях (LLM), таких как генеративные предварительно обученные трансформаторы (GPT). К ним относятся генерация контента, резюмирование текста и завершение текста.

Генерация изображений и видео

Модели диффузии улучшают качество генерируемых видео. Они решают проблемы сложности и пространственно-временной непрерывности видеокадров. Эта возможность позволяет создателям контента подавать текстовые подсказки для генерации коротких высококачественных видеосценариев.

Генерация текста в изображение

Сегодня вы можете генерировать изображения, подавая текстовые подсказки в генератор текста в изображение. Примерами могут служить Imagen от Google и DALL-E от OpenAI. LLM используют диффузию для декодирования визуальных слов в изображение. В идеале эти генераторы кодируют изображения как векторные визуальные слова. Затем они используют эти слова, чтобы обусловить диффузионную модель для генерации нового изображения, схожего по стилю с исходным.

Суперразрешение изображения

Одно из самых ранних применений диффузионных моделей - сверхразрешение изображений. Речь идет о повышении разрешения изображения с низкого до высокого, при этом максимально сохраняя его содержание.

Разрешение изображения с помощью диффузионной модели происходит в два этапа. Во-первых, с помощью диффузионной модели создаются изображения с низким разрешением, которые легче и быстрее обучаются. Во-вторых, вы обучаете отдельную диффузионную модель и настраиваете ее на суперразрешение, которое улучшает разрешение низкокачественных изображений.

Ограничения диффузионных моделей

Диффузионные модели очень мощные и совершают революцию в индустрии ИИ. Однако, как мы покажем ниже, у них есть своя доля проблем.

Модели диффузии требуют времени на обучение

При создании изображений диффузионные модели опираются на денуазирование. Обучение моделей денуазеров с нуля требует множества итераций. На ранних уровнях диффузионные модели обучаются дольше. На более поздних этапах, когда модель может генерировать образцы, близкие к обучающим данным, время обучения постепенно сокращается. Этот процесс может занимать как минуты, так и часы вычислительного времени. Другими словами, диффузионные модели используют тысячи обращений к нейронным сетям для генерации образцов по сравнению с GAN, которые используют только одно обращение. Это делает диффузионные модели более медленными в генерации образцов.

Сложно точно настроить диффузионную модель

Чтобы получить индивидуализированную версию модели, вы берете предварительно обученную модель и обучаете ее на своих собственных данных. Однако в условиях ограниченного количества данных сложно точно настроить предварительно обученную безусловную модель диффузии. Ограниченность данных может привести к чрезмерной подгонке на ранних этапах обучения. Результирующие изображения, полученные с помощью моделей с избыточной подгонкой, отличаются низким качеством и ограниченным разнообразием.

Диффузионные модели требуют большого объема памяти

Большие диффузионные модели требуют большого объема памяти. Диффузионная модель может содержать миллиарды параметров. Поэтому они обучаются и тестируются на мощных серверах. Учитывая ограниченный объем памяти GPU, реализация таких моделей на мобильных устройствах требует больших усилий. Учитывая это ограничение, мобильные устройства сталкиваются с трудностями при выполнении одной большой диффузионной модели.

Поскольку использование памяти GPU представляет угрозу для развертывания диффузионных моделей на мобильных устройствах, появляются новые решения. Одно из решений - выпуск уменьшенных версий диффузионных моделей. Эти модели достаточно сжаты, чтобы их можно было развернуть на мобильных устройствах.

FAQs

В чем разница между GAN и диффузионной моделью?

Генеративные состязательные сети (GAN) работают на основе состязательного процесса обучения. В них используется нейронная сеть-генератор для создания образцов данных и нейронная сеть-дискриминатор для различения подлинных и поддельных образцов данных. Диффузионная модель - это модель на основе правдоподобия, которая генерирует образцы путем итеративного добавления гауссовского шума к данным и применения выученной функции денуазинга для постепенного преобразования данных в реалистичные образцы.

В чем разница между трансформатором и диффузионной моделью?

Трансформеры применяют механизмы самовнушения для изучения контекстуальных отношений между элементами в последовательных данных и отлично справляются с классификацией изображений и НЛП. Диффузионные модели отлично справляются с созданием высококачественных, фотореалистичных изображений.

Каковы некоторые проблемы диффузионных моделей?

Диффузионные модели требуют длительного процесса обучения денуазированию с большим количеством итераций. Кроме того, большие диффузионные модели с миллиардами параметров требуют больших ресурсов памяти. Наконец, тонкая настройка диффузионной модели при ограниченном количестве данных может привести к чрезмерной подгонке, в результате чего получаются некачественные и менее разнообразные изображения.

Как диффузионная модель генерирует изображения?

Диффузионные модели генерируют изображения с помощью итерационного процесса, который включает в себя диффузию и денуацию значений пикселей изображения для создания все более целостных и детализированных изображений.

Контент

Начните бесплатно, масштабируйтесь легко

Попробуйте полностью управляемую векторную базу данных, созданную для ваших GenAI приложений.

Попробуйте Zilliz Cloud бесплатно

Поделиться этой статьей

Связанные ресурсы

Что такое векторная база данных?

Векторная база данных - это полностью управляемое решение для хранения, индексирования и поиска по огромным массивам неструктурированных данных, использующее возможности вкраплений из моделей машинного обучения.

Введение в поиск векторного сходства

Как семантически схожие фрагменты неструктурированных данных находятся "рядом" и "далеко" друг от друга.

Оценка производительности Milvus в 2023 году

В этом учебном пособии вы узнаете о текстовых неструктурированных данных.