Основные понятия мира ИИ
Основные понятия мира искусственного интеллекта
Искусственный интеллект (AI) - это системы, имитирующие интеллектуальное поведение человека. В этой области существует множество терминов, которые важно знать для понимания принципов и возможностей AI.
Группа 1: Основные понятия
- Машинное обучение (ML): обучение моделей на данных без прямого запрограммирования для всех возможных решений.
- Наука о данных (DS): анализ, обработка, визуализация и построение выводов из больших объёмов информации.
- Глубокое обучение (DL): разновидность ML, основанная на нейронных сетях с множеством слоёв.
- Нейронная сеть (NN): вычислительная модель, смутно напоминающая работу мозга, применяется для решения разных задач в ML/DL.
Группа 2: Модели и алгоритмы
- Большая языковая модель (LLM): массивные нейросети, обученные на гигантских корпусах текстов для работы с языком.
- Генеративная предварительно обученная трансформер (GPT): архитектура LLM, генерирует текст в ответ на запросы.
- Компьютерное зрение (CV): направление по анализу и распознаванию изображений, видео.
- Обработка естественного языка (NLP): автоматизация работы с текстами и речью.
Группа 3: Метрики и оценка
- ROC-AUC: метрика качества бинарной классификации, чувствительность/специфичность.
- RMSE (Root Mean Square Error): корень из среднеквадратичной ошибки, популярная метрика регрессии.
- TP/FP/TN/FN: обозначения результатов классификации: ошибки и правильные срабатывания.
Группа 4: Проблемы и ограничения
- Переобучение (Overfitting): ситуация, когда модель слишком "запомнила" обучающие данные и плохо работает на новых.
- Недообучение (Underfitting): модель слишком простая, не находит смысла даже в тренировочных данных.
- Гиперпараметр (Hyperparameter): параметр, управляющий процессом обучения модели.
Группа 5: Специальные понятия
- Токены (Token): единицы текста, используемые для анализа и обработки.
- Инференция (Inference): процесс вывода или предсказания на основе обученной модели.
- Transfer Learning: использование знаний, полученных на одной задаче, для обучения на другой, схожей.
- Fine-tuning: доучивание модели на новой, более специализированной задаче.
- Zero-shot: когда модель делает что-то на задаче, прямых примеров которой она не видела на обучении.
Эти понятия являются основой для понимания мира искусственного интеллекта и его применения в различных областях.
Дополнительный материал
Вопросы учеников к ИИ-помощнику и ответы по теме урока
Привет! Отличный вопрос. Ты попал в самую гущу современных архитектур и типов моделей. Эти термины описывают не столько базовую структуру (как нейросеть), сколько способ её обучения, настройки или сборки.
Вот краткий разбор самых популярных из них:
1. Основная мысль:
Эти термины описывают специализацию модели (Instruct), метод сжатия (Distilled) или архитектурную фишку (MoE). Они помогают понять, для чего модель предназначена и насколько она "тяжелая".
2. Ключевые пункты:
-
Instruct (Инструктивные модели):
- Суть: Модель, которую специально дообучали (fine-tuning) на датасете из пар «инструкция — правильный ответ».
- Зачем: Чтобы она лучше понимала команды на естественном языке (например, «Напиши краткое изложение...»), а не просто продолжала текст.
- Пример: GPT-3.5-turbo (Instruct) vs. просто GPT-3 (base model).
-
Distilled (Дистиллированные модели):
- Суть: Техника «дистилляции знаний». Большая и умная «учительская» модель обучает маленькую «ученическую» модель имитировать своё поведение.
- Зачем: Получить компактную и быструю модель, которая почти не уступает по качеству большой, но требует меньше ресурсов (памяти, GPU).
- Пример: DistilBERT (в 2 раза быстрее BERT, сохраняет 95% качества).
-
MoE (Mixture of Experts — Смесь экспертов):
- Суть: Архитектура, где внутри модели есть много маленьких «экспертных» подсетей. Для каждого запроса активируется только часть из них (обычно 2-3), а не вся сеть целиком.
- Зачем: Позволяет сделать модель огромной (триллионы параметров), но при этом вычисления для одного запроса остаются быстрыми (как у модели среднего размера).
- Пример: Mixtral 8x7B (8 экспертов по 7B параметров, но на каждый токен работают только 2).
-
Base (Базовая модель):
- Суть: Исходная модель, обученная на огромном корпусе текстов (обычно на задаче предсказания следующего слова).
- Зачем: Это «сырая заготовка». Она умеет генерировать текст, но плохо следует инструкциям. Её нужно дообучать (делать Instruct) или настраивать под конкретную задачу.
-
Chat (Чат-модель):
- Суть: Разновидность Instruct-модели, оптимизированная для диалогов (с историей сообщений).
- Зачем: Умеет поддерживать контекст беседы, помнить, что было сказано ранее.
3. Упражнение для закрепления:
Представь, что у тебя есть три модели:
1. GPT-4 Base (огромная, знает всё, но тупит, если сказать «Привет»).
2. GPT-4 Turbo (Instruct + Chat, отлично отвечает на вопросы).
3. GPT-4 Turbo Mini (Distilled версия GPT-4 Turbo, быстрая и дешёвая).
Вопрос: Какую модель ты выберешь для:
* А) Чат-бота в службе поддержки, где важна скорость и низкая цена? (Ответ: 3)
* Б) Научного исследования, где нужно сгенерировать сложную гипотезу с нуля, и время не важно? (Ответ: 2, так как она лучше следует инструкциям, чем Base, и умнее Mini)
Попробуй сопоставить термины из урока (Fine-tuning, Transfer Learning) с этими понятиями. Например, создание Instruct-модели — это частный случай Fine-tuning.