← Назад к курсу

Использование искусственного интеллекта для работы с графикой

Введение

В этом уроке мы постараемся показать, как ИИ применяется в графическом дизайне, генерации и редактировании изображений, изучить популярные программы, модели и примеры использования, разобрать проблемы обучения/дообучения моделей, осветить вопросы авторских прав и этики.

Уровень: Средний (требуются базовые знания Python и графики).

1. Основные концепции ИИ в графике

ИИ работает с графикой через генеративные модели:

  • GANs (Generative Adversarial Networks): Генератор vs. Дискриминатор (пример: StyleGAN для лиц).
  • Диффузионные модели: Добавляют/убирают шум (Stable Diffusion, DALL-E).
  • Transformer-based: CLIP для понимания текста+изображений.

Задачи ИИ:

  • Генерация из текста (text-to-image).
  • Стилизация (style transfer).
  • Inpainting/outpainting (заполнение/расширение).
  • Upscaling (повышение разрешения).
  • Depth estimation, segmentation.

2. Примеры программ и моделей

Популярные инструменты

Инструмент Модели Возможности Цена Пример промпта/команды
Stable Diffusion (SD 1.5 / SDXL) Open-source (Hugging Face) Text2Img, Img2Img, Inpainting Бесплатно (локально) "A serene mountain lake at dawn, photorealistic, 8k"
Midjourney v6 Собственные Высококачественное искусство $10–60/мес /imagine dragon in cyberpunk city --v 6 --ar 2:1
DALL-E 3 OpenAI Интеграция с ChatGPT $20/мес (Plus) "Illustrate a robot chef cooking sushi"
Adobe Firefly Firefly 2 Generative Fill/Expand в Photoshop $20+/мес (CC) Выделить область → "replace with forest"
Leonardo.ai SDXL + кастом Игровые ассеты, fine-tuned модели Freemium Промпт + Elements (стили)
ComfyUI / InvokeAI SD, Flux.1 Нодовые пайплайны Бесплатно Кастом-воркфлоу для LoRA

Локальная установка Stable Diffusion (Automatic1111 WebUI)

  1. Требования: GPU NVIDIA (4+ GB VRAM), Python 3.10, Git.
  2. git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    cd stable-diffusion-webui
    
  3. Скачайте модель (например, Realistic Vision): поместите в models/Stable-diffusion/.
  4. Запуск: ./webui.sh (Linux/Mac) или webui-user.bat (Windows).
  5. Пример: Txt2Img → Prompt: "Portrait of a wizard, detailed face, fantasy art" → Negative: "blurry, lowres".

Другие модели (Hugging Face):

  • stabilityai/stable-diffusion-xl-base-1.0
  • black-forest-labs/FLUX.1-dev (новая SOTA-модель).

3. Проблемы обучения и дообучения моделей

Обучение с нуля

  • Данные: Миллиарды изображений+тексты (LAION-5B для SD).
  • Проблемы:
    Проблема Описание Решение
    Ресурсы 1000+ GPU, недели обучения ($100k+). Используйте предобученные.
    Качество данных NSFW, bias (расизм, гендер). Фильтры (LAION-Aesthetics).
    Мод Collapse (GANs) Генератор "застревает". Progressive Growing.
    Overfitting Модель копирует данные. Dropout, augmentation.

Дообучение (Fine-tuning)

  • LoRA (Low-Rank Adaptation): Легкое дообучение (1-100 MB vs. 4 GB модель).
    • Пример: Дообучить на своих фото для "портрета в стиле Ван Гога".
    • Инструмент: Kohya_ss GUI.
    • Шаги:
      1. Соберите 20-100 изображений (1024x1024).
      2. Капшены: BLIP или вручную ("photo of [person]").
      3. Обучите LoRA: 1000-5000 шагов, lr=1e-4.
      4. Используйте: <lora:your_lora:1.0> в промпте.
  • DreamBooth: Полное дообучение (требует 24GB VRAM).
  • Проблемы дообучения:
    Проблема Причина Решение
    Overfitting Мало данных. Regularization images (классовые фото).
    Catastrophic Forgetting Забывает базовые знания. LoRA вместо full fine-tune.
    NSFW leakage Из базовых данных. Safety checker.
    VRAM Модель большая. xFormers, gradient checkpointing.

Пример кода дообучения LoRA (Diffusers):

from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
# ... (подготовка датасета)
# Обучение с Hugging Face PEFT

4. Авторские права и этика

  • Обучение на данных: Модели обучены на публичных датасетах (LAION), включая работы художников (Getty Images подал в суд на SD).
    • Риск: Генерация похожих на copyrighted (Artbreeder lawsuits).
  • Генерация:
    Статус Open-source (SD) Закрытые (Midjourney)
    Коммерческое использование Да (CC0/MIT), но проверяйте модель. Да (с подпиской).
    Права на вывод Обычно ваши, но не 100% (traceability). Платные планы — полные права.
  • Проблемы:
    • Плагиат: ИИ может воспроизвести стиль (Andy Warhol cases).
    • Deepfakes: Лица знаменитостей.
    • EU AI Act: Обязательная маркировка ИИ-контента.
  • Рекомендации:
    1. Используйте лицензированные модели (Adobe Firefly — "clean" данные).
    2. Добавляйте watermark (C2PA стандарт).
    3. Для коммерции: Midjourney Pro или stock с правами.
    4. Проверяйте: HaveIBeenTrained.com (для художников).

Практическое задание

  1. Установите Automatic1111, сгенерируйте 5 изображений.
  2. Найдите LoRA на Civitai.com, протестируйте.
  3. Дообучите LoRA на 10 своих фото (используйте онлайн-калькулятор VRAM).
  4. Обсудите: Можно ли продавать ИИ-арт как "свой"?

Дополнительные ресурсы

  • Civitai.com: Модели/LoRA.
  • Hugging Face: Diffusers библиотека.
  • Книги: "Generative Deep Learning" (David Foster).
  • YouTube: Olivio Sarikas (туториалы SD).