Перейти к основному содержимому

Обзор и разбор трансформерных архитектур

Разработчику

После Attention Is All You Need (2017) появилось семейство архитектур с общим каркасом attention + FFN, но разными схемами обучения и блоков. Ниже — карта основных линий; хронология breakthrough'ов — тренды 2018–2021.


Три оси классификации

ОсьВарианты
Topologyencoder / decoder / both
ObjectiveMLM, CLM, span corruption, denoising
Scaletiny (millions) → frontier (100B+)

Encoder-only

BERT (2018)

Bidirectional Encoder Representations from Transformers — encoder + Masked Language Modeling (MLM) + Next Sentence Prediction (NSP).

  • случайные 15% токенов маскируют; модель восстанавливает их с учётом обеих сторон контекста;
  • сильные sentence / token embeddings для классификации и NER;
  • типичный fine-tune — добавить head на [CLS] или на каждый token.

RoBERTa (2019)

Пересмотр рецепта BERT: больше данных, динамическое маскирование, без NSP, длиннее обучение. Часто строго лучше BERT при том же размере.

ALBERT (2019)

Factorized embeddings + cross-layer parameter sharing — меньше параметров, сравнимое качество; дольше обучение на step.

DeBERTa (2020)

Disentangled attention — отдельные представления для содержания и позиции; улучшение на GLUE и SuperGLUE.

DistilBERT (2019)

Дистилляция BERT в модель ~40% размера, ~60% скорости, ~97% качества — edge и latency-sensitive сервисы.


Decoder-only

GPT (2018–2020)

Generative Pre-trained Transformer — только decoder, causal language modeling (предсказание следующего токена).

ВерсияПараметрыЗаметка
GPT-1117MTransfer + fine-tune
GPT-21.5BZero-shot emergent abilities
GPT-3175BIn-context learning, few-shot

Современные LLM (GPT-4, Claude, Llama 3, Gemma) — та же decoder-only линия + RLHF, MoE, длинный контекст.

LLaMA / Mistral / Qwen

Открытые или частично открытые decoder-only модели; Llama — RMSNorm, SwiGLU, RoPE; Mistral — sliding window attention; Qwen — сильный multilingual.


Encoder-decoder

T5 (2019)

Text-to-Text Transfer Transformerвсе задачи как текст: "translate English to German: …", "summarize: …". Обучение — span corruption (Random spans → <extra_id> tokens).

Удобен, когда вход и выход — разные тексты (перевод, суммаризация).

BART (2019)

Denoising autoencoder — шумят текст (shuffle, mask, delete), модель восстанавливает. Сильная генеративная seq2seq альтернатива T5.

mBART / mT5

Мультиязычные варианты — перевод и cross-lingual transfer, важны для русского в связке с английским.


Длинный контекст

Стандартный attention — $O(n^2)$ по памяти. Обходы:

Модель / техникаИдея
Longformer / BigBirdSparse attention — local + global tokens
Linformer / PerformerАппроксимация attention
FlashAttentionIO-aware exact attention на GPU
RoPE + YaRN / NTKЭкstrapolation позиций для LLM

Как выбрать архитектуру

ЗадачаПервая гипотеза
Классификация, NER, embeddingEncoder (BERT, RuBERT, e5)
Чат, генерация, кодDecoder (GPT, Llama, Qwen)
Перевод, суммаризация seq2seqT5, BART, mT5
Мало VRAM, latencyDistilBERT, TinyBERT, rubert-tiny
Длинный документLongformer, RAG + chunking, long-context LLM

С 2022 года
Многие продуктовые задачи «понимания» решают промптом к большой decoder-only LLM или RAG вместо fine-tune BERT. Классические encoder-модели остаются дешевле на inference и предсказуемее для узкой классификации.


Сравнение objective

ObjectiveМоделиНаправление контекста
MLMBERT, RoBERTaДвусторонний (на masked позициях)
CLMGPT, LlamaТолько слева направо
Span corruptionT5Encoder видит corrupted, decoder генерирует
DenoisingBARTВосстановление исходного текста

Дальше


См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").