Перейти к основному содержимому

Разведочный анализ данных в Excel

Аналитику Разработчику

Зачем Excel на этапе EDA

Разведочный анализ данных (Exploratory Data Analysis, EDA) — это знакомство с новым набором данных до проверки гипотез и построения моделей. Джон Тьюки сравнивал EDA с «интервью» с таблицей: сначала выясняют, какие переменные есть, как они распределены и какие вопросы вообще имеет смысл задавать.

Excel остаётся удобной средой для этого этапа, если объём помещается в память листа и не нужен распределённый конвейер. Сводные таблицы, условное форматирование и встроенные диаграммы дают быстрый ответ на вопросы «сколько», «как часто» и «как связано» без установки R или Python. После EDA тот же смысл переносят в pandas или R — см. маршрут Excel → R → Python.


Наблюдения и переменные

ПонятиеСмыслПример в таблице
НаблюдениеОдна строка — один объект или событиеУченик, сделка, сессия
ПеременнаяСтолбец — признак наблюденийprice, region, score

Перед расчётами полезно:

  1. Сохранить копию исходного файла и работать с копией.
  2. Добавить столбец id с уникальным номером строки.
  3. Преобразовать диапазон в таблицу Excel (Ctrl+T) — фильтры и ссылки на столбцы становятся устойчивее.

Классификация переменных задаёт допустимые графики и формулы. Подробнее о типах в теории — Основы статистики.

Категориальные переменные

Признак с конечным набором меток: пол, регион, тип тарифа, да/нет.

Задача в EDAИнструмент Excel
Частоты значений=ЧАСТОТА, сводная таблица «Количество»
Долисводная с полем «% от строки»
Связь двух категорийдвумерная сводная (строки × столбцы)

Пример из учебных наборов недвижимости: таблица частот airco (кондиционер) × prefarea (район).

Количественные переменные

Числа, с которыми имеет смысл считать среднее, разброс, квантили: цена, площадь, время ответа.

ПоказательФормула / действие
Среднее=СРЗНАЧ(диапазон)
Медиана=МЕДИАНА(диапазон)
Разброс=СТАНДОТКЛОН.В(диапазон) или дисперсия
Квантили=КВАРТИЛЬ.ИСКЛ(диапазон; 1) … для Q1, Q3

Мода для непрерывных величин в Excel считают реже; для дискретных счётчиков удобна сводная по значению с максимумом Count.


Визуализация в Excel

Вопрос EDAТип графика
Распределение одной числовой переменнойгистограмма (через сводную «группировка по интервалам» или встроенную гистограмму)
Сравнение группстолбчатая диаграмма по категории
Связь двух числовыхточечная (scatter)
Выбросы относительно группящик с усами (box plot), с Excel 2016+

Сводная таблица + диаграмма — типичный путь: сначала агрегат (средний балл по типу класса), затем график по сводной, а не по сырому миллиону строк.

Чек-лист «интервью с данными»
  • Сколько строк и столбцов? Есть ли дубликаты id?
  • Какой тип у каждого столбца (категория / число / дата)?
  • Есть ли пропуски? Сколько их в ключевых полях?
  • Как выглядит распределение целевой метрики?
  • Есть ли очевидные выбросы или сдвиги по периодам?
  • Какие вопросы к бизнесу возникают после первых графиков?

От EDA к статистическому выводу

EDA не заменяет проверку гипотез и не доказывает причинность. Он сужает круг гипотез и показывает, где данные «шумят» или противоречат ожиданиям.

Логичная цепочка после EDA:

  1. EDA в Excel — типы переменных, описательные графики.
  2. Вероятность и выборка — насколько выборка похожа на популяцию.
  3. Инференциальная статистика — H₀/H₁, p-значение, t-тест, ANOVA (обзор).
  4. Корреляция и регрессия — линейная связь; осторожность с причинностью.
  5. R или Python — те же шаги в коде для воспроизводимости.

Упражнения для закрепления

На любом табличном наборе (учебный Housing, экспорт из CRM, CSV с метриками):

  1. Классифицируйте каждый столбец (категориальный / количественный / порядковый).
  2. Постройте двумерную таблицу частот для двух категориальных полей.
  3. Получите описательную статистику для одной числовой переменной.
  4. Визуализируйте распределение второй числовой переменной гистограммой или box plot.

Для практики подойдут открытые CSV (недвижимость, образование, метрики продукта) или экспорт из вашей CRM.


См. также

МатериалТема
41 — Справочник Excelформулы и горячие клавиши
430 — Маршрут Excel → R → Pythonследующий шаг после EDA
428 — Pandas, типовые операциите же идеи в Python

См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").