200 вопросов по базам данных

НЕ ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Уникальный индекс — запрещает дублирование значений.
Составной индекс — строится по нескольким столбцам.
Кластеризованный индекс — определяет физический порядок хранения строк в таблице.
Некластеризованный индекс — хранится отдельно от данных и содержит указатели на строки.

Устранение дублирования данных.
Предотвращение аномалий вставки, обновления и удаления.
Обеспечение гибкости и масштабируемости схемы.
Упрощение поддержки и модификации структуры.

Вопрос

Что такое первая нормальная форма (1НФ)?

Ответ

Денормализация — это сознательное введение избыточности в структуру базы данных для повышения производительности запросов за счёт уменьшения количества соединений и упрощения выборок.

SQL: DDL, DML, DCL

Вопрос

Что такое SQL?

Ответ

SQL (Structured Query Language) — это стандартный язык для работы с реляционными базами данных. Он используется для определения структуры данных, манипулирования данными и управления доступом к ним.

Вопрос

На какие основные категории делятся команды SQL?

Ответ

Команды SQL делятся на четыре основные категории:

DDL (Data Definition Language) — определение структуры.
DML (Data Manipulation Language) — манипулирование данными.
DCL (Data Control Language) — управление доступом.
TCL (Transaction Control Language) — управление транзакциями.

Вопрос

Команда UPDATE изменяет значения существующих строк в таблице. Обязательно указывается условие WHERE, чтобы избежать изменения всех строк.

Пример:

UPDATE employees
SET salary = salary * 1.1
WHERE department_id = 3;

Вопрос

Что делает команда DELETE?

Ответ

Команда DELETE удаляет строки из таблицы. Без условия WHERE удаляются все строки. Операция может быть откатана, если выполняется в рамках транзакции.

Пример:

DELETE FROM employees WHERE id = 1;

Пример:

GRANT SELECT ON employees TO analyst_user;

Вопрос

Что делает команда REVOKE?

Ответ

Команда REVOKE отменяет ранее предоставленные привилегии у пользователя или роли.

Пример:

REVOKE DELETE ON employees FROM junior_user;

Вопрос

Что такое псевдоним (alias) в SQL?

Ответ

Псевдоним — это временное имя, присваиваемое таблице или столбцу в запросе для упрощения чтения или ссылки. Используется с ключевым словом AS (необязательно).

Пример:

SELECT e.name AS employee_name
FROM employees AS e;

Вопрос

Что такое литерал в SQL?

Ответ

Литерал — это константное значение, записанное непосредственно в запросе: строка 'Иван', число 42, дата DATE '2025-01-01'.

Вопрос

Какие типы данных поддерживаются в SQL?

Ответ

Основные типы данных в SQL:

Числовые: INTEGER, DECIMAL, FLOAT.
Строковые: CHAR, VARCHAR, TEXT.
Дата и время: DATE, TIME, TIMESTAMP.
Логический: BOOLEAN.
Бинарные: BLOB, BYTEA.

Вопрос

Что такое NULL-значение в SQL?

Ответ

NULL обозначает отсутствие значения. Сравнение с NULL через = всегда даёт UNKNOWN. Для проверки используется IS NULL или IS NOT NULL.

Вопрос

Как работает оператор LIKE?

Ответ

Оператор LIKE используется для сравнения строк по шаблону. Смвол % означает любое количество символов, _ — один символ.

Пример:

SELECT name FROM employees WHERE name LIKE 'А%';

Индексы и производительность

Вопрос

Что такое индекс в базе данных?

Ответ

Индекс — это структура данных, ускоряющая поиск строк в таблице по значениям одного или нескольких столбцов. Индекс хранится отдельно от самих данных и содержит отсортированные значения ключей с указателями на соответствующие строки.

Вопрос

Какие основные типы индексов существуют?

Ответ

Основные типы индексов:

Кластеризованный индекс — определяет физический порядок хранения строк в таблице. В таблице может быть только один кластеризованный индекс.
Некластеризованный индекс — хранится отдельно от данных и содержит ссылки на строки. Таких индексов может быть несколько.
Уникальный индекс — гарантирует уникальность значений в индексируемых столбцах.
Составной индекс — строится по нескольким столбцам.
Функциональный индекс — строится по результату выражения или функции над столбцами.

Пример:

CREATE INDEX idx_covering ON orders (customer_id) INCLUDE (order_date, total);

Вопрос

Когда индекс не используется?

Ответ

Индекс может не использоваться, если:

Запрос использует функцию над индексируемым столбцом (WHERE UPPER(name) = 'IVAN').
Условие включает NOT, != или IS NULL.
Выборка затрагивает большую часть таблицы (СУБД выбирает полное сканирование как более эффективное).
Статистика по таблице устарела.

REORGANIZE — перестраивает листовые страницы индекса, занимает меньше ресурсов.
REBUILD — полностью пересоздаёт индекс, устраняя всю фрагментацию, но требует больше времени и места.

Вопрос

Что такое план выполнения запроса?

Ответ

План выполнения запроса — это последовательность операций, которые СУБД планирует выполнить для получения результата запроса. План показывает, какие индексы используются, как соединяются таблицы и в каком порядке выполняются шаги.

Вопрос

Как получить план выполнения запроса?

Ответ

В большинстве СУБД используется команда EXPLAIN или её аналог:

PostgreSQL, MySQL: EXPLAIN SELECT ...
SQL Server: SET SHOWPLAN_ALL ON или графический план в SSMS
Oracle: EXPLAIN PLAN FOR ...

Вопрос

Для улучшения производительности:

Проанализировать план выполнения.
Добавить или изменить индексы.
Переписать запрос (избегать функций над столбцами, подзапросов там, где возможны JOIN).
Обновить статистику.
Рассмотреть денормализацию или материализованные представления.

Транзакции и ACID

Вопрос

Что такое транзакция в базе данных?

Ответ

Транзакция — это логическая единица работы, состоящая из одной или нескольких операций над данными, которые выполняются как единое целое. Результат транзакции либо полностью сохраняется, либо полностью отменяется.

Вопрос

Какие четыре свойства определяют корректную транзакцию?

Ответ

Четыре свойства транзакции составляют акроним ACID:

Atomicity (Атомарность)
Consistency (Согласованность)
Isolation (Изолированность)
Durability (Долговечность)

Стандарт ANSI/ISO определяет четыре уровня изоляции:

Read Uncommitted
Read Committed
Repeatable Read
Serializable

Блокировки и конкурентность

Вопрос

Что такое блокировка в базе данных?

Ответ

Блокировка — это механизм, используемый СУБД для контроля одновременного доступа нескольких транзакций к одним и тем же данным. Блокировка предотвращает некорректные изменения и обеспечивает изоляцию.

Вопрос

Какие основные типы блокировок существуют?

Ответ

Основные типы блокировок:

Shared (S) — разделяемая блокировка, разрешает чтение, но запрещает запись другим транзакциям.
Exclusive (X) — исключительная блокировка, запрещает и чтение, и запись другим транзакциям.
Update (U) — промежуточная блокировка, используемая перед обновлением, чтобы избежать взаимоблокировок.
Intent — намеренная блокировка на уровне таблицы или страницы, сигнализирующая о наличии более мелких блокировок внутри.

Вопрос

Репликация и резервное копирование

Вопрос

Что такое репликация в контексте баз данных?

Ответ

Репликация — это процесс автоматического копирования и поддержания актуальности данных между несколькими узлами (серверами) базы данных. Цель репликации — повышение доступности, масштабируемости и отказоустойчивости.

Вопрос

Какие основные типы репликации существуют?

Ответ

Основные типы репликации:

Мастер-слейв (leader-follower) — одна нода принимает запись, остальные копируют изменения.
Мастер-мастер (multi-leader) — несколько нод принимают запись, изменения синхронизируются между ними.
Пир-пир (peer-to-peer) — все ноды равноправны, каждая может читать и писать.
Каскадная — слейвы могут сами быть мастерами для других слейвов.

Увеличивают пропускную способность сети между узлами.
Оптимизируют запросы и индексы на репликах.
Используют параллельное применение транзакций (если поддерживается).
Избегают долгих транзакций на мастере.

Вопрос

Что такое резервное копирование (backup)?

Ответ

Резервное копирование — это создание копии данных и метаданных базы данных для последующего восстановления в случае потери или повреждения.

Вопрос

Какие типы резервного копирования существуют?

Ответ

Основные типы резервного копирования:

Полное (full) — копия всей базы на момент времени.
Инкрементальное (incremental) — копия только изменённых данных с момента последнего резервного копирования любого типа.
Дифференциальное (differential) — копия изменённых данных с момента последнего полного резервного копирования.

Redo (повтор) — применение всех зафиксированных транзакций из журнала после последней резервной копии.
Undo (откат) — отмена всех незафиксированных транзакций на момент сбоя.

Критические системы: полная копия ежедневно, журналы — каждые 5–15 минут.
Некритические: полная копия раз в неделю, инкрементальные — ежедневно.

Вопрос

Где хранить резервные копии?

Ответ

Резервные копии следует хранить:

Вне основного сервера (на другом физическом устройстве).
В географически удалённом месте (для защиты от локальных катастроф).
С контролем целостности и шифрованием при необходимости.

Вопрос

Что такое RTO и RPO?

Ответ

RTO (Recovery Time Objective) — максимально допустимое время простоя системы после сбоя.
RPO (Recovery Point Objective) — максимально допустимый объём потерянных данных, измеряемый временем.

NoSQL и альтернативные модели

Вопрос

Что такое NoSQL-база данных?

Ответ

Basically Available — система всегда отвечает, но не обязательно корректными данными.
Soft state — состояние может меняться со временем даже без входящих запросов.
Eventually consistent — система со временем достигнет согласованного состояния.

MongoDB поддерживает многострочные транзакции внутри одного шарда.
Cassandra поддерживает линейно-изолированные операции на уровне партиции.
Redis поддерживает транзакции через MULTI/EXEC.

Вопрос

Что такое шардинг в NoSQL?

Ответ

Шардинг — это горизонтальное разделение данных на части (шарды), распределённые по разным узлам. Каждый шард отвечает за подмножество ключей, что обеспечивает масштабируемость записи и чтения.

Вопрос

Как выбирается ключ шардирования?

Ответ

Ключ шардирования должен:

Обеспечивать равномерное распределение данных.
Минимизировать необходимость межшардовых запросов.
Соответствовать паттернам доступа приложения (например, user_id для пользовательских данных).

Вопрос

Что такое денормализация в NoSQL?

Ответ

Валидация перед записью.
Использование транзакций там, где они поддерживаются.
Реализация бизнес-правил в коде.
Применение идемпотентных операций для устойчивости к повторам.

Целостность проверяют с помощью встроенных утилит:

В PostgreSQL: pg_checksums, pg_amcheck.
В SQL Server: DBCC CHECKDB.
В MySQL: mysqlcheck --check.

Репликацию: обновляют слейвы по очереди, затем переключают мастер.
Blue/Green-развёртывание: запускают новую версию параллельно, переключают трафик.
Rolling update в кластерах (например, Patroni + PostgreSQL).

Встроенные средства СУБД (например, SQL Server Agent).
Сстемы мониторинга (Prometheus + exporters, Zabbix, Datadog).
Кастомные скрипты, проверяющие метрики и отправляющие уведомления при превышении порогов.

Вопрос

Что такое SLA в контексте баз данных?

Ответ

SLA (Service Level Agreement) — это соглашение об уровне обслуживания, определяющее обязательства по доступности, времени отклика, RTO/RPO и другим показателям. Например: "99.95% uptime, RTO ≤ 15 минут".

Распределённые базы данных и архитектурные паттерны

Диапазонный шардинг — шарды содержат диапазоны значений ключа (например, ID от 1 до 10000).
Хэш-шардинг — ключ хэшируется, и результат определяет шард. Обеспечивает равномерное распределение.
Директорный шардинг — отдельный сервис (directory) хранит карту "ключ → шард".

Вопрос

Что такое координатор в распределённой СУБД?

Ответ

Чтение с ближайшей реплики.
Использование активных мастеров в каждом регионе (multi-leader).
Кэширование часто запрашиваемых данных.
Применение eventual consistency там, где допустимо.

Вопрос

Что такое time-series база данных?

Ответ

Time-series база данных оптимизирована для хранения и анализа данных, привязанных ко времени (например, метрики, логи, события). Примеры: InfluxDB, TimescaleDB, Prometheus.

Вопрос

Почему обычные СУБД плохо подходят для time-series данных?

Ответ

Обычные СУБД не оптимизированы для:

Высокой скорости вставки тысяч записей в секунду.
Автоматического управления временными окнами (удаление старых данных).
Эффективной агрегации по временным интервалам.
Сжатия временных рядов.

Добавление новых столбцов как NULL или со значением по умолчанию.
Разделение миграции на несколько этапов (например, сначала добавить столбец, потом заполнить, потом использовать).
Использование обратно совместимого кода приложения.
Применение инструментов вроде Flyway, Liquibase, или GitHub Actions с проверками.

Вопрос

Какие тренды наблюдаются в современных базах данных?

Ответ

Современные тренды:

Гибридные модели (HTAP — гибрид OLTP и OLAP).
Встроенный машинный анализ (ML в SQL).
Serverless-архитектура (автомасштабирование, оплата по использованию).
Унифицированные API (например, GraphQL поверх базы).
Повышенный акцент на безопасность и compliance (шифрование, аудит, zero-trust).