Разведочный анализ данных в Excel

ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Аналитику Разработчику

Зачем Excel на этапе EDA

Разведочный анализ данных (Exploratory Data Analysis, EDA) — это знакомство с новым набором данных до проверки гипотез и построения моделей. Джон Тьюки сравнивал EDA с "интервью" с таблицей — сначала выясняют, какие переменные есть, как они распределены и какие вопросы вообще имеет смысл задавать.

Excel остаётся удобной средой для этого этапа, если объём помещается в память листа и не нужен распределённый конвейер. Сводные таблицы, условное форматирование и встроенные диаграммы дают быстрый ответ на вопросы "сколько", "как часто" и "как связано" без установки R или Python. Базовые формулы (СУММ, СРЗНАЧ, СУММЕСЛИ) с разбором для учёбы — Excel и Google Sheets — формулы. После EDA тот же смысл переносят в pandas или R — см. маршрут Excel → R → Python.

Наблюдения и переменные

Понятие	Смысл	Пример в таблице
Наблюдение	Одна строка — один объект или событие	Ученик, сделка, сессия
Переменная	Столбец — признак наблюдений	`price`, `region`, `score`

Перед расчётами полезно:

Сохранить копию исходного файла и работать с копией.
Добавить столбец id с уникальным номером строки.
Преобразовать диапазон в таблицу Excel (Ctrl+T) — фильтры и ссылки на столбцы становятся устойчивее.

Классификация переменных задаёт допустимые графики и формулы. Подробнее о типах в теории — Основы статистики.

Категориальные переменные

Признак с конечным набором меток:

пол;
регион;
тип тарифа;
да/нет.

Задача в EDA	Инструмент Excel
Частоты значений	`=ЧАСТОТА`, сводная таблица "Количество"
Доли	сводная с полем "% от строки"
Связь двух категорий	двумерная сводная (строки × столбцы)

Пример из учебных наборов недвижимости: таблица частот airco (кондиционер) × prefarea (район).

Количественные переменные

Числа, с которыми имеет смысл считать среднее, разброс, квантили — цена, площадь, время ответа.

Показатель	Формула / действие
Среднее	`=СРЗНАЧ(диапазон)` — разбор в Lab
Медиана	`=МЕДИАНА(диапазон)`
Разброс	`=СТАНДОТКЛОН.В(диапазон)` или дисперсия
Квантили	`=КВАРТИЛЬ.ИСКЛ(диапазон; 1)` … для Q1, Q3

Мода для непрерывных величин в Excel считают реже; для дискретных счётчиков удобна сводная по значению с максимумом Count.

Визуализация в Excel

Вопрос EDA	Тип графика
Распределение одной числовой переменной	гистограмма (через сводную "группировка по интервалам" или встроенную гистограмму)
Сравнение групп	столбчатая диаграмма по категории
Связь двух числовых	точечная (scatter)
Выбросы относительно групп	ящик с усами (box plot), с Excel 2016+

Сводная таблица + диаграмма — типичный путь:

сначала агрегат (средний балл по типу класса);
затем график по сводной;
а не по сырому миллиону строк.

Чек-лист "интервью с данными"

Сколько строк и столбцов? Есть ли дубликаты id?
Какой тип у каждого столбца (категория / число / дата)?
Есть ли пропуски? Сколько их в ключевых полях?
Как выглядит распределение целевой метрики?
Есть ли очевидные выбросы или сдвиги по периодам?
Какие вопросы к бизнесу возникают после первых графиков?

От EDA к статистическому выводу

EDA не заменяет проверку гипотез и не доказывает причинность. Он сужает круг гипотез и показывает, где данные "шумят" или противоречат ожиданиям.

Логичная цепочка после EDA:

EDA в Excel — типы переменных, описательные графики.
Вероятность и выборка — насколько выборка похожа на популяцию.
Инференциальная статистика — H₀/H₁, p-значение, t-тест, ANOVA (обзор).
Корреляция и регрессия — линейная связь; осторожность с причинностью.
R или Python — те же шаги в коде для воспроизводимости.

Упражнения для закрепления

На любом табличном наборе (учебный Housing, экспорт из CRM, CSV с метриками):

Классифицируйте каждый столбец (категориальный / количественный / порядковый).
Постройте двумерную таблицу частот для двух категориальных полей.
Получите описательную статистику для одной числовой переменной.
Визуализируйте распределение второй числовой переменной гистограммой или box plot.

Для практики подойдут открытые CSV (недвижимость, образование, метрики продукта) или экспорт из вашей CRM.

См. также

Материал	Тема
Справочник по Microsoft Excel — Справочник Excel	формулы и горячие клавиши
Маршрут Excel → R → Python — Маршрут Excel → R → Python	следующий шаг после EDA
Pandas — типовые операции при анализе данных — Pandas, типовые операции	те же идеи в Python
NumPy — массивы и матрицы — NumPy, примеры с разбором	массивы, `mean`, `axis`, матрицы
Pandas — типовые операции — Pandas, примеры с разбором	готовые скрипты для лабораторных

Разведочный анализ данных в Excel

Зачем Excel на этапе EDA

Наблюдения и переменные

Категориальные переменные

Количественные переменные

Визуализация в Excel

От EDA к статистическому выводу

Упражнения для закрепления

См. также

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Зачем Excel на этапе EDA​

Наблюдения и переменные​

Категориальные переменные​

Количественные переменные​

Визуализация в Excel​

От EDA к статистическому выводу​

Упражнения для закрепления​

См. также​

Связанные темы

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Зачем Excel на этапе EDA

Наблюдения и переменные

Категориальные переменные

Количественные переменные

Визуализация в Excel

От EDA к статистическому выводу

Упражнения для закрепления

См. также