Трансформеры и NLP — чек-лист
Чек-лист самопроверки
- Чем обработка естественного языка (NLP) отличается от табличного машинного обучения на входе модели?
- Назовите пять типичных задач NLP и формат их входа/выхода.
- Что такое токенизация на уровне subword и зачем она нужна?
- Какие метрики используют для классификации текста и для machine translation?
- В чём ограничения RNN/LSTM по сравнению с трансформером?
- Запишите формулу scaled dot-product attention и поясните роль
sqrt(d_k). - Чем self-attention отличается от cross-attention?
- Зачем трансформеру positional encoding?
- Чем encoder-only архитектура отличается от decoder-only и encoder-decoder?
- Что такое causal mask и где она применяется?
- Из каких подблоков состоит один layer трансформера?
- Зачем residual connections и LayerNorm в блоке?
- Как устроен multi-head attention концептуально?
- Какие компоненты вы реализовали бы в минимальном encoder block на PyTorch?
- Чем pre-training отличается от fine-tuning в NLP?
- Когда уместен full fine-tuning, а когда LoRA или freeze backbone?
- Какую «голову» добавляют к BERT для NER и для классификации документа?
- Чем BERT и GPT отличаются по objective и направлению контекста?
- Для каких задач логичнее T5 или BART, чем GPT?
- Что такое DistilBERT и зачем дистилляция?
- Почему стандартный attention плохо масштабируется на очень длинные документы?
- Назовите три русскоязычных или multilingual чекпоинта с Hub и их назначение.
- Что делает Hugging Face
pipelineи когда вызывают модель напрямую? - Зачем sentence-transformers в semantic search и RAG?
- Какие шаги чек-листа нужны перед выводом NLP-модели в production?
- Какую роль сыграли GLUE и SuperGLUE в 2018–2020?
- Что показал GPT-3 про in-context learning и масштаб?
- Чем ViT представляет изображение для трансформера?
- Как Whisper кодирует аудио перед decoder?
- Как CLIP связывает изображения и текст без классификатора на фиксированных классах?
Итоги раздела — 98.
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Обработка естественного языка — задачи, корпуса, токенизация, метрики и типичный pipeline от сырого текста до модели. Transformer — attention, encoder и decoder, positional encoding, multi-head attention и отличия encoder-only, decoder-only и seq2seq. Минимальная реализация Transformer encoder block на PyTorch — attention, FFN, residual, LayerNorm и учебный forward pass. Fine-tuning трансформеров — classification head, token classification, seq2seq, LoRA, PEFT и выбор стратегии под объём данных. Семейства Transformer — BERT, GPT, T5, RoBERTa, ALBERT, DistilBERT, Longformer и выбор архитектуры под задачу NLP. Hugging Face pipelines, выбор русскоязычных чекпоинтов, инференс, ONNX и типичный production-путь для NLP. Хронология NLP от ELMo и ULMFiT до GPT-3 — pre-training, transfer learning, бенчмарки GLUE и SuperGLUE, scaling laws. ViT, DETR, Whisper, CLIP и Audio Spectrogram Transformer — как attention переносится с текста на изображения и аудио. Краткие итоги раздела "Трансформеры и NLP" — задачи NLP, attention, архитектуры, fine-tuning и практика с предобученными моделями.NLP и работа с текстом
Что такое трансформер — архитектура и особенности
Устройство трансформеров — теория и практика с нуля
Дообучение моделей на конкретные задачи NLP
Обзор и разбор трансформерных архитектур
Практика работы с предобученными моделями
Современные тренды в NLP (2018–2021)
Трансформеры в разных модальностях — текст, зрение, звук
Трансформеры и NLP — итоги