Разведочный анализ данных в Excel
Зачем Excel на этапе EDA
Разведочный анализ данных (Exploratory Data Analysis, EDA) — это знакомство с новым набором данных до проверки гипотез и построения моделей. Джон Тьюки сравнивал EDA с «интервью» с таблицей: сначала выясняют, какие переменные есть, как они распределены и какие вопросы вообще имеет смысл задавать.
Excel остаётся удобной средой для этого этапа, если объём помещается в память листа и не нужен распределённый конвейер. Сводные таблицы, условное форматирование и встроенные диаграммы дают быстрый ответ на вопросы «сколько», «как часто» и «как связано» без установки R или Python. После EDA тот же смысл переносят в pandas или R — см. маршрут Excel → R → Python.
Наблюдения и переменные
| Понятие | Смысл | Пример в таблице |
|---|---|---|
| Наблюдение | Одна строка — один объект или событие | Ученик, сделка, сессия |
| Переменная | Столбец — признак наблюдений | price, region, score |
Перед расчётами полезно:
- Сохранить копию исходного файла и работать с копией.
- Добавить столбец
idс уникальным номером строки. - Преобразовать диапазон в таблицу Excel (Ctrl+T) — фильтры и ссылки на столбцы становятся устойчивее.
Классификация переменных задаёт допустимые графики и формулы. Подробнее о типах в теории — Основы статистики.
Категориальные переменные
Признак с конечным набором меток: пол, регион, тип тарифа, да/нет.
| Задача в EDA | Инструмент Excel |
|---|---|
| Частоты значений | =ЧАСТОТА, сводная таблица «Количество» |
| Доли | сводная с полем «% от строки» |
| Связь двух категорий | двумерная сводная (строки × столбцы) |
Пример из учебных наборов недвижимости: таблица частот airco (кондиционер) × prefarea (район).
Количественные переменные
Числа, с которыми имеет смысл считать среднее, разброс, квантили: цена, площадь, время ответа.
| Показатель | Формула / действие |
|---|---|
| Среднее | =СРЗНАЧ(диапазон) |
| Медиана | =МЕДИАНА(диапазон) |
| Разброс | =СТАНДОТКЛОН.В(диапазон) или дисперсия |
| Квантили | =КВАРТИЛЬ.ИСКЛ(диапазон; 1) … для Q1, Q3 |
Мода для непрерывных величин в Excel считают реже; для дискретных счётчиков удобна сводная по значению с максимумом Count.
Визуализация в Excel
| Вопрос EDA | Тип графика |
|---|---|
| Распределение одной числовой переменной | гистограмма (через сводную «группировка по интервалам» или встроенную гистограмму) |
| Сравнение групп | столбчатая диаграмма по категории |
| Связь двух числовых | точечная (scatter) |
| Выбросы относительно групп | ящик с усами (box plot), с Excel 2016+ |
Сводная таблица + диаграмма — типичный путь: сначала агрегат (средний балл по типу класса), затем график по сводной, а не по сырому миллиону строк.
- Сколько строк и столбцов? Есть ли дубликаты
id? - Какой тип у каждого столбца (категория / число / дата)?
- Есть ли пропуски? Сколько их в ключевых полях?
- Как выглядит распределение целевой метрики?
- Есть ли очевидные выбросы или сдвиги по периодам?
- Какие вопросы к бизнесу возникают после первых графиков?
От EDA к статистическому выводу
EDA не заменяет проверку гипотез и не доказывает причинность. Он сужает круг гипотез и показывает, где данные «шумят» или противоречат ожиданиям.
Логичная цепочка после EDA:
- EDA в Excel — типы переменных, описательные графики.
- Вероятность и выборка — насколько выборка похожа на популяцию.
- Инференциальная статистика — H₀/H₁, p-значение, t-тест, ANOVA (обзор).
- Корреляция и регрессия — линейная связь; осторожность с причинностью.
- R или Python — те же шаги в коде для воспроизводимости.
Упражнения для закрепления
На любом табличном наборе (учебный Housing, экспорт из CRM, CSV с метриками):
- Классифицируйте каждый столбец (категориальный / количественный / порядковый).
- Постройте двумерную таблицу частот для двух категориальных полей.
- Получите описательную статистику для одной числовой переменной.
- Визуализируйте распределение второй числовой переменной гистограммой или box plot.
Для практики подойдут открытые CSV (недвижимость, образование, метрики продукта) или экспорт из вашей CRM.
См. также
| Материал | Тема |
|---|---|
| 41 — Справочник Excel | формулы и горячие клавиши |
| 430 — Маршрут Excel → R → Python | следующий шаг после EDA |
| 428 — Pandas, типовые операции | те же идеи в Python |
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Интерпретация данных представляет собой процесс перевода количественных результатов анализа в качественное понимание явлений и процессов. Big Data — это относительное состояние, при котором объём данных превышает возможности традиционных систем хранения и обработки с точки зрения производительности, стоимости или масштабируемости. Data Science - междисциплинарный подход к извлечению знаний из данных через статистику, моделирование и предметную экспертизу. Дата-майнинг и KDD - связь с полным циклом от постановки задачи до интерпретации найденных закономерностей в данных. Критическое мышление в анализе. Фиксация на цифрах и ложь в статистике. Интегрированная система управления инженерными и бытовыми компонентами жилого пространства, построенная на принципах автоматизации. Поддержка физической активности, повышение эффективности тренировок, контроль состояния организма. Базовые показатели. Как работать с представлениями данных. ИИ в анализе данных - автоматизация поиска закономерностей и поддержка решений с помощью машинного обучения и нейросетевых моделей. Причинно-следственные связи в анализе - как действия и условия порождают измеримые результаты и выводы. Потоковая аналитика в реальном времени - обработка событий по мере поступления и извлечение сигналов без обязательного долгого хранения сырых данных. Описательная статистика служит для краткого обобщения свойств набора данных. Она позволяет понять центральную тенденцию, разброс и форму распределения.Анализ данных
Big Data
Data Science
Дата майнинг
Ошибки интерпретации и манипуляции статистикой
Умный дом
Технологии в спорте
Основы статистики
Как использовать ИИ для анализа данных
Причинно-следственный анализ
Потоковая аналитика в реальном времени
Python для анализа данных