Обзор и разбор трансформерных архитектур
После Attention Is All You Need (2017) появилось семейство архитектур с общим каркасом attention + FFN, но разными схемами обучения и блоков. Ниже — карта основных линий; хронология breakthrough'ов — тренды 2018–2021.
Три оси классификации
| Ось | Варианты |
|---|---|
| Topology | encoder / decoder / both |
| Objective | MLM, CLM, span corruption, denoising |
| Scale | tiny (millions) → frontier (100B+) |
Encoder-only
BERT (2018)
Bidirectional Encoder Representations from Transformers — encoder + Masked Language Modeling (MLM) + Next Sentence Prediction (NSP).
- случайные 15% токенов маскируют; модель восстанавливает их с учётом обеих сторон контекста;
- сильные sentence / token embeddings для классификации и NER;
- типичный fine-tune — добавить head на
[CLS]или на каждый token.
RoBERTa (2019)
Пересмотр рецепта BERT: больше данных, динамическое маскирование, без NSP, длиннее обучение. Часто строго лучше BERT при том же размере.
ALBERT (2019)
Factorized embeddings + cross-layer parameter sharing — меньше параметров, сравнимое качество; дольше обучение на step.
DeBERTa (2020)
Disentangled attention — отдельные представления для содержания и позиции; улучшение на GLUE и SuperGLUE.
DistilBERT (2019)
Дистилляция BERT в модель ~40% размера, ~60% скорости, ~97% качества — edge и latency-sensitive сервисы.
Decoder-only
GPT (2018–2020)
Generative Pre-trained Transformer — только decoder, causal language modeling (предсказание следующего токена).
| Версия | Параметры | Заметка |
|---|---|---|
| GPT-1 | 117M | Transfer + fine-tune |
| GPT-2 | 1.5B | Zero-shot emergent abilities |
| GPT-3 | 175B | In-context learning, few-shot |
Современные LLM (GPT-4, Claude, Llama 3, Gemma) — та же decoder-only линия + RLHF, MoE, длинный контекст.
LLaMA / Mistral / Qwen
Открытые или частично открытые decoder-only модели; Llama — RMSNorm, SwiGLU, RoPE; Mistral — sliding window attention; Qwen — сильный multilingual.
Encoder-decoder
T5 (2019)
Text-to-Text Transfer Transformer — все задачи как текст: "translate English to German: …", "summarize: …". Обучение — span corruption (Random spans → <extra_id> tokens).
Удобен, когда вход и выход — разные тексты (перевод, суммаризация).
BART (2019)
Denoising autoencoder — шумят текст (shuffle, mask, delete), модель восстанавливает. Сильная генеративная seq2seq альтернатива T5.
mBART / mT5
Мультиязычные варианты — перевод и cross-lingual transfer, важны для русского в связке с английским.
Длинный контекст
Стандартный attention — $O(n^2)$ по памяти. Обходы:
| Модель / техника | Идея |
|---|---|
| Longformer / BigBird | Sparse attention — local + global tokens |
| Linformer / Performer | Аппроксимация attention |
| FlashAttention | IO-aware exact attention на GPU |
| RoPE + YaRN / NTK | Экstrapolation позиций для LLM |
Как выбрать архитектуру
| Задача | Первая гипотеза |
|---|---|
| Классификация, NER, embedding | Encoder (BERT, RuBERT, e5) |
| Чат, генерация, код | Decoder (GPT, Llama, Qwen) |
| Перевод, суммаризация seq2seq | T5, BART, mT5 |
| Мало VRAM, latency | DistilBERT, TinyBERT, rubert-tiny |
| Длинный документ | Longformer, RAG + chunking, long-context LLM |
Сравнение objective
| Objective | Модели | Направление контекста |
|---|---|---|
| MLM | BERT, RoBERTa | Двусторонний (на masked позициях) |
| CLM | GPT, Llama | Только слева направо |
| Span corruption | T5 | Encoder видит corrupted, decoder генерирует |
| Denoising | BART | Восстановление исходного текста |
Дальше
- Тренды NLP 2018–2021 — хронология и бенчмарки
- Предобученные модели на практике
- Мультимодальные трансформеры
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Обработка естественного языка — задачи, корпуса, токенизация, метрики и типичный pipeline от сырого текста до модели. Transformer — attention, encoder и decoder, positional encoding, multi-head attention и отличия encoder-only, decoder-only и seq2seq. Минимальная реализация Transformer encoder block на PyTorch — attention, FFN, residual, LayerNorm и учебный forward pass. Fine-tuning трансформеров — classification head, token classification, seq2seq, LoRA, PEFT и выбор стратегии под объём данных. Hugging Face pipelines, выбор русскоязычных чекпоинтов, инференс, ONNX и типичный production-путь для NLP. Хронология NLP от ELMo и ULMFiT до GPT-3 — pre-training, transfer learning, бенчмарки GLUE и SuperGLUE, scaling laws. ViT, DETR, Whisper, CLIP и Audio Spectrogram Transformer — как attention переносится с текста на изображения и аудио. Краткие итоги раздела "Трансформеры и NLP" — задачи NLP, attention, архитектуры, fine-tuning и практика с предобученными моделями. Чек-лист самопроверки по разделу Трансформеры и NLP — вопросы для закрепления материала.NLP и работа с текстом
Что такое трансформер — архитектура и особенности
Устройство трансформеров — теория и практика с нуля
Дообучение моделей на конкретные задачи NLP
Практика работы с предобученными моделями
Современные тренды в NLP (2018–2021)
Трансформеры в разных модальностях — текст, зрение, звук
Трансформеры и NLP — итоги
Трансформеры и NLP — чек-лист