200 вопросов по СУБД

НЕ ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Загрузка вопросов…

200 вопросов по СУБД

Основные понятия и терминология СУБД

Реляционные (например, PostgreSQL, MySQL, Oracle, MS SQL Server)
Документные (например, MongoDB, CouchDB)
Ключ-значение (например, Redis, DynamoDB)
Графовые (например, Neo4j)
Колоночные (например, Apache Cassandra, ClickHouse)
Поисковые (например, Elasticsearch)

B-дерево (наиболее распространённый, используется для диапазонных запросов)
Хеш-индекс (эффективен для точного совпадения, но не поддерживает диапазоны)
Уникальный индекс (гарантирует уникальность значений)
Составной индекс (создаётся по нескольким столбцам)
Частичный индекс (создаётся только по подмножеству строк, удовлетворяющих условию)

Atomicity (Атомарность): все операции транзакции выполняются или ни одна.
Consistency (Согласованность): транзакция переводит базу из одного согласованного состояния в другое.
Isolation (Изолированность): параллельные транзакции не мешают друг другу.
Durability (Долговечность): результаты зафиксированной транзакции сохраняются даже при сбое системы.

Вопрос

Что такое уровень изоляции транзакций?

Ответ

Уровень изоляции определяет степень видимости изменений, внесённых одной транзакцией, для других параллельно выполняющихся транзакций. Распространённые уровни:

Read Uncommitted
Read Committed
Repeatable Read
Serializable

Вопрос

Триггер — это специальный вид хранимой процедуры, автоматически выполняемой при наступлении определённого события (INSERT, UPDATE, DELETE) в указанной таблице. Триггеры используются для обеспечения бизнес-правил, аудита или поддержания целостности.

Пример:

CREATE TRIGGER update_modified_time
BEFORE UPDATE ON orders
FOR EACH ROW
EXECUTE FUNCTION set_current_timestamp();

Аномалия вставки: невозможность добавить данные без наличия связанных данных.
Аномалия обновления: необходимость изменять данные в нескольких местах для поддержания согласованности.
Аномалия удаления: потеря данных при удалении других записей.

Суррогатный ключ предпочтителен при отсутствии стабильного естественного ключа, при частых изменениях естественного ключа или при сложных составных ключах.
Естественный ключ уместен, если он гарантированно уникален, неизменяем и прост (например, код страны ISO).

Вопрос

Что такое звезда и снежинка в проектировании хранилищ данных?

Ответ

Звезда: схема, где одна центральная фактовая таблица связана напрямую с несколькими измерениями (dimension tables).
Снежинка: нормализованная версия звезды, где измерения дополнительно разбиты на подтаблицы для устранения избыточности.

Пример звезды:

fact_sales (
  sale_id,
  product_id,
  customer_id,
  date_id,
  amount
)

dim_product (product_id, name, category)
dim_customer (customer_id, name, city)
dim_date (date_id, day, month, year)

Вопрос

Что такое шардинг и как он влияет на проектирование БД?

Ответ

Добавляются новые столбцы как NULLABLE или со значением по умолчанию.
Приложение обновляется для работы с новыми и старыми столбцами.
Старые столбцы удаляются только после полного перехода приложения.
Также применяются стратегии типа expand-and-contract и blue-green deployment.

SQL: синтаксис, команды и практика

Вопрос

Что такое SQL?

Ответ

SQL (Structured Query Language) — это декларативный язык программирования, предназначенный для управления реляционными базами данных. Он позволяет создавать, изменять, запрашивать и удалять данные, а также управлять структурой и доступом к базе.

Вопрос

Какие основные категории команд SQL существуют?

Ответ

Основные категории команд SQL:

DDL (Data Definition Language): CREATE, ALTER, DROP, TRUNCATE — управление структурой БД.
DML (Data Manipulation Language): SELECT, INSERT, UPDATE, DELETE — манипуляции с данными.
DCL (Data Control Language): GRANT, REVOKE — управление правами доступа.
TCL (Transaction Control Language): COMMIT, ROLLBACK, SAVEPOINT — управление транзакциями.

Вопрос

Что делает команда SELECT?

Ответ

Команда SELECT извлекает данные из одной или нескольких таблиц. Она может включать фильтрацию (WHERE), сортировку (ORDER BY), группировку (GROUP BY) и объединение таблиц (JOIN).

Пример:

SELECT name, email FROM users WHERE age > 18 ORDER BY name;

Вопрос

Чем отличаются DELETE, TRUNCATE и DROP?

Ответ

DELETE удаляет строки из таблицы, поддерживает условия (WHERE) и может быть отменён через ROLLBACK.
TRUNCATE удаляет все строки из таблицы быстро, без логирования отдельных строк; не поддерживает WHERE и не может быть частично отменён в большинстве СУБД.
DROP удаляет всю таблицу (включая структуру, индексы, ограничения).

Вопрос

Что такое псевдоним (alias) в SQL?

Ответ

Псевдоним — это временное имя, присваиваемое таблице или столбцу в запросе для упрощения чтения или разрешения конфликтов имён. Указывается с помощью ключевого слова AS (необязательно).

Пример:

SELECT u.name AS full_name
FROM users AS u;

Вопрос

Какие типы JOIN существуют?

Ответ

Основные типы JOIN:

INNER JOIN: возвращает только совпадающие строки в обеих таблицах.
LEFT JOIN (или LEFT OUTER JOIN): возвращает все строки из левой таблицы и совпадающие из правой.
RIGHT JOIN: аналогично, но с приоритетом правой таблицы.
FULL OUTER JOIN: объединяет все строки из обеих таблиц.
CROSS JOIN: декартово произведение (все возможные пары строк).

Вопрос

Что такое подзапрос (subquery)?

Ответ

Подзапрос — это SQL-запрос, вложенный внутрь другого запроса. Он может использоваться в SELECT, FROM, WHERE или HAVING. Подзапросы бывают коррелированные (зависят от внешнего запроса) и некоррелированные.

Пример:

SELECT name
FROM users
WHERE id IN (SELECT user_id FROM orders WHERE total > 1000);

Вопрос

Что делает оператор UNION?

Ответ

Оператор UNION объединяет результаты двух или более SELECT-запросов в один набор строк. По умолчанию удаляет дубликаты. Для сохранения дубликатов используется UNION ALL.

Требования:

Одинаковое количество столбцов.
Совместимые типы данных в соответствующих позициях.

Вопрос

Что такое агрегатные функции? Назовите основные.

Ответ

Агрегатные функции выполняют вычисления над множеством значений и возвращают одно значение. Основные:

COUNT() — количество строк.
SUM() — сумма значений.
AVG() — среднее значение.
MIN() / MAX() — минимальное/максимальное значение.

Вопрос

Чем отличается WHERE от HAVING?

Ответ

WHERE фильтрует строки до группировки.
HAVING фильтрует группы после агрегации (обычно используется с GROUP BY).

Пример:

SELECT department, AVG(salary)
FROM employees
WHERE hire_date > '2020-01-01'
GROUP BY department
HAVING AVG(salary) > 50000;

Вопрос

Что такое общее табличное выражение (CTE)?

Ответ

CTE (Common Table Expression) — это временный именованный результат запроса, определяемый в блоке WITH. Он улучшает читаемость и может быть рекурсивным.

Пример:

WITH high_earners AS (
  SELECT id, name, salary
  FROM employees
  WHERE salary > 100000
)
SELECT name FROM high_earners;

Вопрос

Что такое рекурсивный CTE и где он применяется?

Ответ

Рекурсивный CTE ссылается на самого себя и используется для обработки иерархических или древовидных структур (например, оргструктура, категории товаров).

Пример:

WITH RECURSIVE subordinates AS (
  SELECT id, name, manager_id
  FROM employees
  WHERE id = 1
  UNION ALL
  SELECT e.id, e.name, e.manager_id
  FROM employees e
  INNER JOIN subordinates s ON e.manager_id = s.id
)
SELECT * FROM subordinates;

Вопрос

Что такое оконные функции?

Ответ

Оконные функции выполняют вычисления по набору строк, связанных с текущей строкой, без свёртки в одну строку (в отличие от агрегатных). Используются с OVER().

Пример:

SELECT name, salary,
       RANK() OVER (ORDER BY salary DESC) as salary_rank
FROM employees;

Вопрос

Какие основные оконные функции вы знаете?

Ответ

Основные оконные функции:

Ранжирование: ROW_NUMBER(), RANK(), DENSE_RANK().
Агрегация: SUM() OVER(), AVG() OVER() и др.
Смещение: LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE().

Вопрос

Что такое CASE в SQL?

Ответ

CASE — это условное выражение, аналог if-else в других языках. Позволяет возвращать разные значения в зависимости от условий.

Пример:

SELECT name,
       CASE
         WHEN salary > 100000 THEN 'High'
         WHEN salary > 50000 THEN 'Medium'
         ELSE 'Low'
       END AS salary_level
FROM employees;

Вопрос

Как проверить наличие NULL-значений в столбце?

Ответ

Для проверки NULL используются специальные операторы IS NULL и IS NOT NULL, так как NULL не равен ничему, даже самому себе.

Пример:

SELECT * FROM users WHERE email IS NULL;

Вопрос

Что такое COALESCE?

Ответ

COALESCE возвращает первое ненулевое значение из списка аргументов. Используется для замены NULL на значение по умолчанию.

Пример:

SELECT name, COALESCE(phone, 'not provided') AS phone
FROM contacts;

Вопрос

Материализованное представление хранит результат запроса физически на диске и обновляется периодически или по событию. Обычное представление (VIEW) выполняет underlying-запрос каждый раз при обращении. Материализованные VIEW ускоряют сложные аналитические запросы за счёт использования предварительно вычисленных данных.

Индексы, оптимизация запросов и план выполнения

Вопрос

Что такое индекс и зачем он нужен?

Ответ

Индекс — это вспомогательная структура данных, которая ускоряет поиск, сортировку и соединение строк в таблице. Без индекса СУБД выполняет полное сканирование таблицы (full scan), что неэффективно при большом объёме данных.

Вопрос

Какие основные типы индексов используются в реляционных СУБД?

Ответ

Основные типы индексов:

B-дерево — стандартный индекс для диапазонных и точечных запросов.
Хеш-индекс — эффективен только для точного совпадения (=), не поддерживает диапазоны или сортировку.
GIN (Generalized Inverted Index) — для массивов, JSON, полнотекстового поиска.
GiST (Generalized Search Tree) — для геометрических, географических и других специализированных типов данных.
BRIN (Block Range Index) — для очень больших таблиц с упорядоченными данными (например, временные ряды).

Запрос использует функцию над индексируемым столбцом (WHERE UPPER(name) = 'JOHN').
Низкая селективность (например, флаг is_active со значениями 99% true).
Малый размер таблицы (полное сканирование быстрее).
Отсутствие статистики или устаревшая статистика.
Использование OR без покрытия всех условий индексами.

Вопрос

Что такое покрывающий индекс (covering index)?

Ответ

Покрывающий индекс — это индекс, который содержит все столбцы, необходимые для выполнения запроса. Это позволяет СУБД удовлетворить запрос, обращаясь только к индексу, без доступа к самой таблице (heap или clustered index).

Пример:

CREATE INDEX idx_users_email_name ON users (email) INCLUDE (name);
SELECT name FROM users WHERE email = 'test@example.com';

Вопрос

Что такое селективность индекса?

Ответ

Селективность — это мера уникальности значений в столбце. Высокая селективность (много уникальных значений) делает индекс эффективным. Формула:
селективность = количество уникальных значений / общее количество строк.
Чем ближе к 1, тем лучше.

Вопрос

Как влияет порядок столбцов в составном индексе?

Ответ

Порядок столбцов критичен. Индекс эффективен только если запрос фильтрует по префиксу индекса. Например, индекс (A, B, C) может использоваться для условий:

WHERE A = ?
WHERE A = ? AND B = ?
WHERE A = ? AND B = ? AND C = ?
Но не для WHERE B = ? или WHERE C = ?.

Seq Scan / Table Scan — полное сканирование таблицы.
Index Scan — обход индекса с обратной ссылкой на таблицу.
Index Only Scan — данные получены только из индекса.
Nested Loop, Hash Join, Merge Join — алгоритмы соединения.
Sort, HashAggregate, GroupAggregate — операции сортировки и группировки.

Вопрос

Чем отличаются Hash Join и Merge Join?

Ответ

Hash Join: строит хеш-таблицу по одной таблице, затем сканирует вторую. Эффективен, когда одна таблица значительно меньше другой.
Merge Join: требует, чтобы обе таблицы были отсортированы по ключу соединения. Эффективен при уже отсортированных данных или при необходимости сортировки в любом случае.

Вопрос

Что такое кардинальность в контексте плана выполнения?

Ответ

Кардинальность в плане — это оценка количества строк, которые вернёт каждый шаг запроса. Оптимизатор использует эту оценку для выбора наиболее эффективного плана. Неточная кардинальность часто приводит к плохому плану.

Вопрос

Как обновить статистику по таблице?

Ответ

Статистика помогает оптимизатору оценивать кардинальность и стоимость операций. Обновляется командами:

PostgreSQL: ANALYZE table_name;
MySQL: ANALYZE TABLE table_name;
MS SQL Server: UPDATE STATISTICS table_name;
Oracle: DBMS_STATS.GATHER_TABLE_STATS(...)

Вопрос

Что такое параметрический запрос и почему он важен для оптимизации?

Ответ

Вопрос

Как выявить "тяжёлые" запросы в работающей системе?

Ответ

Методы:

Включить лог медленных запросов (slow_query_log в MySQL, log_min_duration_statement в PostgreSQL).
Использовать системные представления: pg_stat_statements (PostgreSQL), sys.dm_exec_query_stats (SQL Server).
Мониторинг через APM-системы (Datadog, New Relic) или профилировщики.

Вопрос

Что такое оптимизатор запросов и какие подходы он использует?

Ответ

Оптимизатор запросов — компонент СУБД, выбирающий наиболее эффективный план выполнения. Он использует:

Правила (rule-based) — устаревший подход.
Стоимостную модель (cost-based) — современный подход, оценивающий CPU, I/O, память.
Статистику по таблицам и индексам.
Кэширование планов для повторяющихся запросов.

Shared lock (S) — разрешает чтение, запрещает запись.
Exclusive lock (X) — запрещает и чтение, и запись другим транзакциям.
Intent locks — сигнализируют о намерении установить более детальную блокировку на уровне строк или страниц.

Вопрос

Что такое мёртвая блокировка (deadlock)?

Ответ

Мёртвая блокировка — это циклическое ожидание ресурсов между двумя или более транзакциями, при котором ни одна не может продолжить выполнение. Современные СУБД автоматически обнаруживают deadlocks с помощью графа ожиданий и откатывают одну из транзакций (жертву).

Вопрос

Как избежать мёртвых блокировок?

Ответ

Основные стратегии:

Доступ к ресурсам в одинаковом порядке во всех транзакциях.
Минимизация длительности транзакций.
Использование уровня изоляции, снижающего потребность в блокировках (например, MVCC).
Применение тайм-аутов (SET lock_timeout).

Фаза роста: транзакция может только захватывать блокировки.
Фаза сжатия: транзакция может только освобождать блокировки.
После освобождения первой блокировки захват новых запрещён.

Вопрос

Что такое optimistic concurrency control?

Ответ

Optimistic concurrency control — подход, при котором транзакции выполняются без блокировок, предполагая отсутствие конфликтов. Перед фиксацией проверяется, не изменились ли читаемые данные. При конфликте транзакция откатывается и может быть повторена.

Архитектура СУБД и управление хранилищем данных

Вопрос

Из каких основных компонентов состоит архитектура СУБД?

Ответ

Основные компоненты архитектуры СУБД:

Менеджер запросов (Query Processor): парсинг, оптимизация, выполнение.
Менеджер транзакций (Transaction Manager): управление ACID, координация COMMIT/ROLLBACK.
Менеджер хранилища (Storage Manager): взаимодействие с диском, управление буферами, файлами.
Журнал транзакций (Write-Ahead Log).
Кэш/буферный пул (Buffer Pool).
Служебные процессы (checkpoint, vacuum, archiver и др.).

Битовые карты свободного места (free space map) — отслеживают незанятые участки в страницах.
Списки удалённых записей — для повторного использования места после DELETE.
Автоматическую дефрагментацию (например, VACUUM в PostgreSQL, OPTIMIZE TABLE в MySQL).

Полная копия — копируется вся база.
Инкрементальная — только изменения с момента последней полной или инкрементальной копии.
Дифференциальная — изменения с момента последней полной копии.
Часто комбинируются: например, еженедельная полная + ежедневная инкрементальная.

Вопрос

Что такое Point-in-Time Recovery (PITR)?

Ответ

PITR — возможность восстановить базу данных на любой момент времени в прошлом, используя полную резервную копию и архивные журналы транзакций. Поддерживается в PostgreSQL (pg_wal), Oracle (Flashback), SQL Server (log backups).

Вопрос

Как СУБД обеспечивает отказоустойчивость?

Ответ

Отказоустойчивость достигается через:

Репликацию (мастер-реплика, кворум).
Автоматический failover (Pacemaker, Patroni, Always On).
Хранение данных на отказоустойчивых томах (RAID, ZFS).
Регулярное резервное копирование и тестирование восстановления.

Вопрос

Что такое shared-nothing архитектура?

Ответ

Shared-nothing — архитектура, в которой каждый узел кластера имеет собственную память и диск, и не разделяет ресурсы с другими узлами. Данные распределяются между узлами (шардинг). Примеры: Citus, CockroachDB, Amazon Aurora (частично).

Вопрос

Что такое shared-disk архитектура?

Ответ

Shared-disk — архитектура, в которой несколько узлов имеют доступ к одному и тому же хранилищу данных (SAN, NFS). Примеры: Oracle RAC, SQL Server Failover Cluster Instance. Обеспечивает высокую доступность, но требует сложной синхронизации кэшей.

Репликация, масштабируемость и распределённые базы данных

Вопрос

Что такое репликация в СУБД?

Ответ

Репликация — это процесс автоматического копирования данных с одного узла (мастера или источника) на один или несколько других узлов (реплик или целей). Цели репликации: повышение доступности, отказоустойчивости и масштабируемости чтения.

Вопрос

Какие основные типы репликации существуют?

Ответ

Основные типы репликации:

Снхронная: мастер ждёт подтверждения от реплики перед завершением записи. Гарантирует согласованность, но снижает производительность.
Асинхронная: мастер не ждёт подтверждения. Выше производительность, возможна потеря данных при сбое.
Полусинхронная: компромисс — подтверждение требуется хотя бы от одной реплики.

Обеспечивает равномерное распределение данных (высокая селективность).
Минимизирует межшардовые запросы (часто используемые фильтры содержат этот ключ).
Не изменяется со временем.
Примеры: user_id, tenant_id, хеш от email.

Prepare: координатор спрашивает все участники, готовы ли они зафиксировать транзакцию.
Commit/Rollback: если все ответили "готов", координатор отправляет команду COMMIT; иначе — ROLLBACK.
Недостаток: блокировка ресурсов при отказе координатора.

Вопрос

Что такое CAP-теорема?

Ответ

CAP-теорема утверждает, что в распределённой системе невозможно одновременно обеспечить:

Consistency (согласованность),
Availability (доступность),
Partition tolerance (устойчивость к сетевым разделениям).
Можно выбрать не более двух из трёх.

Вопрос

Какие СУБД относятся к CP, а какие к AP по CAP?

Ответ

CP-системы: PostgreSQL с синхронной репликацией, MongoDB (в режиме majority write concern), CockroachDB — жертвуют доступностью ради согласованности.
AP-системы: Cassandra, DynamoDB, Riak — жертвуют строгой согласованностью ради доступности и устойчивости к разделениям.

Вопрос

Основные меры:

Использование параметризованных запросов (prepared statements).
Валидация и санитизация всех входных данных.
Ограничение прав приложения (например, запрет DDL и DROP).
Регулярное обновление СУБД и применение патчей безопасности.

Вопрос

Что такое аутентификация и авторизация в контексте СУБД?

Ответ

Аутентификация — проверка подлинности пользователя (логин/пароль, сертификат, Kerberos, LDAP).
Авторизация — определение, какие действия разрешены аутентифицированному пользователю (через роли и привилегии).

Вопрос

Какие методы аутентификации поддерживают современные СУБД?

Ответ

Поддерживаемые методы:

Локальные учётные записи (логин/пароль).
Интеграция с LDAP/Active Directory.
Аутентификация по сертификатам SSL/TLS.
Многофакторная аутентификация (MFA) через внешние провайдеры.
Аутентификация на основе доверенных соединений (например, peer authentication в PostgreSQL).

Вопрос

Что такое шифрование данных в СУБД?

Ответ

Шифрование данных защищает информацию от несанкционированного доступа. Поддерживается на трёх уровнях:

In transit: шифрование сетевого трафика (TLS/SSL).
At rest: шифрование файлов данных на диске (TDE — Transparent Data Encryption).
In use: шифрование в памяти (редко, экспериментальные технологии).

Размер буферного пула (shared_buffers в PostgreSQL, innodb_buffer_pool_size в MySQL).
Память для сортировки и хеш-операций (work_mem, sort_buffer_size).
Количество одновременных соединений (max_connections).
Настройки WAL (wal_buffers, checkpoint_segments).
Параметры параллелизма (max_parallel_workers).

Вопрос

Что такое connection pool и зачем он нужен?

Ответ

Вопрос

Как автоматизировать резервное копирование СУБД?

Ответ

Автоматизация достигается через:

Планировщики задач (cron, Windows Task Scheduler).
Скрипты с использованием утилит (pg_dump, mysqldump, sqlcmd).
Интеграция с системами управления конфигурацией (Ansible, Terraform).
Использование облачных решений (AWS Backup, Azure Backup).

Вопрос

Что такое DR-план (Disaster Recovery Plan)?

Ответ

DR-план — документированный процесс восстановления базы данных после катастрофического сбоя (пожар, стихийное бедствие, полная потеря ЦОД). Включает: RPO (цель точки восстановления), RTO (цель времени восстановления), процедуры тестирования и ответственных лиц.

Вопрос

Как проверить корректность резервной копии?

Ответ

Резервную копию следует регулярно восстанавливать в изолированной среде и проверять:

Целостность данных (сравнение контрольных сумм).
Возможность запуска СУБД.
Выполнение тестовых запросов.
Соответствие RPO/RTO.

Вопрос

Что такое роль DBA?

Ответ

DBA (Database Administrator) — специалист, отвечающий за установку, настройку, мониторинг, резервное копирование, безопасность и оптимизацию производительности СУБД. Также участвует в проектировании схем и разработке политик доступа.

Вопрос

Как обновлять СУБД без простоя?

Ответ

Стратегии:

Использование репликации: обновление реплик по очереди, затем failover на обновлённую ноду.
Blue-green deployment: запуск новой версии параллельно, переключение трафика.
Rolling update в кластере (например, Patroni для PostgreSQL).
Минорные обновления часто допускают "на лету" без остановки.

Вопрос

Основные типы:

Ключ-значение (Redis, DynamoDB) — простая модель, высокая производительность.
Документные (MongoDB, Couchbase) — хранение JSON/BSON-документов.
Колоночные (Cassandra, HBase) — данные организованы по столбцам, эффективны для аналитики.
Графовые (Neo4j, Amazon Neptune) — оптимизированы для связей и обхода графов.

Горизонтальное масштабирование (добавление узлов).
Шардинг на уровне системы (часто прозрачный для приложения).
Отказ от строгой согласованности в пользу доступности (AP по CAP).
Минимизация централизованных компонентов.

Вопрос

Что такое eventual consistency?

Ответ

Eventual consistency — модель согласованности, при которой система гарантирует, что если прекратить обновления, все реплики со временем станут идентичными. В промежуточный момент разные клиенты могут видеть разные версии данных.

Вопрос

Как NoSQL-системы обрабатывают конфликты при записи?

Ответ

Методы разрешения конфликтов:

Last-write-wins (LWW) — побеждает запись с более поздней меткой времени.
Векторные часы — отслеживают причинно-следственные связи между операциями.
CRDT (Conflict-Free Replicated Data Types) — математически гарантированно сходящиеся структуры данных.

Обхода связей (например, "друзья друзей").
Поиска кратчайшего пути.
Выявления сообществ и центральных узлов.
Операции вида MATCH (a)-[:KNOWS*1..3]->(b) выполняются значительно быстрее, чем эквивалентные JOIN’ы в реляционных СУБД.

Вопрос

Можно ли использовать транзакции в NoSQL?

Ответ

Поддержка транзакций зависит от системы:

MongoDB поддерживает многострочные транзакции с версии 4.0.
Cassandra поддерживает локальные транзакции в пределах партиции.
Redis предоставляет команды MULTI/EXEC для группировки операций.
Многие AP-системы отказываются от межузловых транзакций ради масштабируемости.

Локальным — существует только в рамках одного шарда (быстро, но требует сканирования всех шардов для глобального запроса).
Глобальным — реплицируется или шардируется отдельно (медленнее при записи, но эффективен при чтении).

Вопрос

Какие языки запросов используют NoSQL-системы?

Ответ

Примеры:

MongoDB: MongoDB Query Language (MQL) — JSON-подобный синтаксис.
Cassandra: CQL (Cassandra Query Language) — похож на SQL, но с ограничениями.
Redis: набор команд (GET, SET, HGETALL и др.).
Neo4j: Cypher — декларативный язык для работы с графами.

Вопрос

Что такое materialized view в NoSQL?

Ответ

Materialized view — предварительно вычисленное представление данных, обновляемое при изменении исходных записей. Используется в Cassandra и ScyllaDB для поддержки запросов по нешардированным ключам.

Вопрос

Как обеспечивается отказоустойчивость в NoSQL?

Ответ

Отказоустойчивость достигается через:

Репликацию данных на несколько узлов (обычно N ≥ 3).
Кворумные чтение/запись (R + W > N).
Автоматическое обнаружение сбоев и восстановление (gossip protocol, hinted handoff).
Multi-region deployment в облачных системах.

Вопрос

Что такое quorum в контексте NoSQL?

Ответ

Quorum — минимальное количество узлов, которые должны подтвердить операцию для её успешного завершения. Для записи обычно требуется W = (N / 2) + 1, для чтения — R = (N / 2) + 1, где N — число реплик. Это гарантирует пересечение множеств чтения и записи и предотвращает чтение устаревших данных.

Вопрос

Когда стоит выбирать NoSQL вместо реляционной СУБД?

Ответ

NoSQL предпочтителен при:

Необходимости горизонтального масштабирования на тысячи узлов.
Гибкой или неизвестной заранее схеме данных.
Высокой скорости записи и низкой задержке.
Специфических моделях данных (графы, временные ряды, документы).
Если важна строгая согласованность, сложные транзакции и отчёты — лучше выбрать реляционную СУБД.

Вопрос

Какие гибридные подходы существуют между SQL и NoSQL?

Ответ

Современные СУБД стирают границы:

PostgreSQL поддерживает JSONB, полнотекстовый поиск, ключ-значение (через расширения).
MySQL имеет документный API и движок Document Store.
Azure Cosmos DB, FaunaDB, CockroachDB предлагают SQL-подобные интерфейсы поверх распределённых NoSQL-движков.
Это позволяет сочетать гибкость NoSQL с мощью SQL.

Практические сценарии, задачи и архитектурные паттерны

Вопрос

Как спроектировать базу данных для чата?

Ответ

Основные таблицы:

users(id, name)
chats(id, type /* direct/group */, created_at)
chat_participants(chat_id, user_id)
messages(id, chat_id, sender_id, content, sent_at, status /* sent/delivered/read */)

Оптимизации:

Индекс по (chat_id, sent_at) для пагинации.
Архивирование старых сообщений.
Использование очередей для доставки уведомлений.
Для высокой нагрузки — шардинг по chat_id.

Вопрос

Как реализовать систему лайков/рейтингов?

Ответ

Варианты:

Таблица лайков: likes(user_id, item_id, created_at), уникальный индекс по (user_id, item_id).
Счётчик в основной таблице: items(id, ..., like_count), обновляется триггером или приложением.

Компромисс:

Таблица лайков — точность, возможность аналитики, но больше I/O.
Счётчик — быстрое чтение, но риск рассогласования при сбоях.

Вопрос

Как хранить дерево категорий (например, каталог товаров)?

Ответ

Способы:

Adjacency List: categories(id, parent_id, name). Простой, но рекурсивные запросы нужны для обхода.
Path Enumeration: path = "/1/5/12/". Быстрый поиск потомков, но сложное обновление.
Nested Sets: left, right номера. Эффективен для чтения, неэффективен для записи.
Closure Table: отдельная таблица category_ancestors(ancestor_id, descendant_id, depth). Гибкий и эффективный для большинства операций.

Вопрос

Как реализовать soft delete?

Ответ

Добавляется столбец deleted_at TIMESTAMP (или is_deleted BOOLEAN). Все запросы должны включать условие WHERE deleted_at IS NULL.
Минусы:

Загромождение индексов "мёртвыми" строками.
Необходимость регулярной очистки (архивации).
Альтернатива — перемещение удалённых записей в отдельную таблицу.

Вопрос

Как хранить историю изменений (audit trail)?

Ответ

Подходы:

Триггеры: автоматически записывают изменения в таблицу audit_log(table_name, row_id, old_values, new_values, changed_by, changed_at).
Логическая репликация: перехват изменений через WAL или binlog.
Прикладной уровень: приложение само пишет историю.
Рекомендуется хранить как минимум: кто, что, когда, откуда (IP/user agent).

Вопрос

Как выбрать СУБД для стартапа?

Ответ

Критерии:

PostgreSQL: лучший баланс функциональности, надёжности и open-source. Подходит для большинства случаев.
MySQL: если важна простота и совместимость с существующим стеком (например, WordPress).
MongoDB: если данные сильно неструктурированы и схема меняется ежедневно.
Redis: для кэша, сессий, очередей.
Избегайте экзотики без веской причины.

Вопрос

Как масштабировать систему аналитики?

Ответ

Архитектура:

OLTP-система (PostgreSQL/MySQL) для операционных данных.
ETL/ELT-процесс переносит данные в хранилище данных (ClickHouse, Redshift, BigQuery, Snowflake).
Используется схема "звезда" или "снежинка".
Предварительно агрегированные материализованные представления для дашбордов.

Вопрос

Как реализовать очередь задач в реляционной СУБД?

Ответ

Таблица:

jobs (
  id,
  payload JSON,
  status ENUM('pending', 'processing', 'completed', 'failed'),
  created_at,
  started_at,
  worker_id
)

Алгоритм захвата задачи:

UPDATE jobs
SET status = 'processing', started_at = NOW(), worker_id = ?
WHERE id = (
  SELECT id FROM jobs
  WHERE status = 'pending'
  ORDER BY created_at
  LIMIT 1
  FOR UPDATE SKIP LOCKED
);

sessions(user_id, session_id, created_at, expires_at)

Перед созданием новой сессии:

Удалить просроченные сессии (DELETE FROM sessions WHERE expires_at < NOW()).
Посчитать активные: SELECT COUNT(*) FROM sessions WHERE user_id = ?.
Если лимит превышен — отказать или удалить самую старую сессию.
Можно использовать ON CONFLICT или MERGE для атомарности.

Вопрос

Как мигрировать с одной СУБД на другую (например, MySQL → PostgreSQL)?

Ответ

Этапы:

Анализ схемы и SQL-кода на совместимость.
Преобразование типов данных, функций, триггеров.
Настройка двойной записи или CDC (Change Data Capture).
Постепенное переключение чтения на новую БД.
Финальный cutover после сверки данных.
Инструменты: AWS DMS, pgloader, custom скрипты.

Вопрос

Как протестировать отказоустойчивость СУБД?

Ответ

Методы:

Chaos Engineering: принудительное отключение нод, сетевых интерфейсов, дисков.
Failover-тесты: ручной или автоматический переход на реплику.
Нагрузочное тестирование после восстановления.
Проверка целостности данных после сценария сбоя.
Используйте инструменты: Chaos Monkey, Gremlin, custom скрипты.

Вопрос

Как реализовать rate limiting на уровне БД?

Ответ

Пример для Redis (чаще используется, чем реляционная БД):

INCR key
EXPIRE key 60

Если значение > лимит — блокировать.
В реляционной БД:

INSERT INTO rate_limits (user_id, window_start, count)
VALUES (?, ?, 1)
ON CONFLICT (user_id, window_start)
DO UPDATE SET count = rate_limits.count + 1;

Но это дороже и медленнее, чем Redis.

Вопрос

Как хранить конфигурацию приложения в БД?

Ответ

Таблица:

app_config (
  key VARCHAR PRIMARY KEY,
  value JSONB,
  updated_at TIMESTAMP
)

Преимущества:

Централизованное управление.
Возможность hot-reload без деплоя.
Аудит изменений.
Минусы:
Дополнительный запрос при старте.
Риск ошибок при некорректных значениях.
Кэшируйте в приложении.

Вопрос

Как обеспечить соответствие требованиям к времени восстановления (RTO) и точке восстановления (RPO)?

Ответ

RPO ≈ 0: синхронная репликация + WAL shipping в реальном времени.
RTO < 1 мин: автоматический failover (Patroni, Orchestrator), готовые standby-ноды.
RPO/RTO в минутах: асинхронная репликация + регулярные архивы WAL.
Тестируйте восстановление не реже раза в квартал.