Маршрут Excel → R → Python

ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Аналитику Разработчику

Для кого этот маршрут

Многие аналитики годами работают в Excel, затем слышат, что "настоящая" аналитика — только в коде. На практике разумный путь — наращивать стек, а не отбрасывать таблицы: EDA и прототипы остаются в Excel, воспроизводимые отчёты и модели переезжают в R или Python.

Статья собирает в один маршрут переход от таблиц к коду и ссылки на материалы энциклопедии. Логика та же, что в типовых курсах прикладной аналитики: сначала Excel и статистика, затем параллельные ветки R и Python с одинаковыми шагами (загрузка → EDA → тесты → регрессия).

Стек анализа данных

Слой	Роль	Когда достаточно
Электронные таблицы	EDA, разовые расчёты, презентация	До ~1 млн строк на машине, один аналитик
Power Query / сводные	Повторяемая загрузка и трансформация без VBA	Регулярные отчёты из нескольких файлов
BI (Power BI и др.)	Модель "звезда", дашборды, RLS	Self-service для бизнеса — Power BI и self-service аналитика
SQL + DWH	Единый источник правды, большие объёмы	SQL, Big Data
R / Python	Статистика, ML, автоматизация, git	Воспроизводимость, сложные модели, CI

VBA в книге упоминается как мост к автоматизации внутри Excel; для новых проектов чаще выбирают Power Query или вынос логики в Python/R.

Соответствие книги и энциклопедии

Часть I — Excel (основы)

Глава книги	Тема	Статья энциклопедии
0	Формулы, ЕСЛИ, ВПР, учебные таблицы	Работа с Microsoft Excel — Excel, Excel и Google Sheets — формулы — формулы в Lab
1	EDA, переменные, графики	Разведочный анализ данных в Excel — EDA в Excel
2	Вероятность, распределения	Основы статистики — Основы статистики
2	Вероятность	Вероятность для аналитика данных
3	Инференциальная статистика	Основы статистики, Ошибки интерпретации и манипуляции статистикой — ошибки интерпретации
4	Корреляция, регрессия	Линейная регрессия — Excel, R и Python, Причинно-следственный анализ — причинность
5	Стек, BI, языки	Data Science — Data Science, Power BI и self-service аналитика — Power BI

Часть II — R

Глава	Тема	Статья
6–7	RStudio, `data.frame`, импорт	5-23-r/7, 5-23-r/4
8	dplyr, tidyr, ggplot2	5-23-r/103, 5-23-r/2
9	EDA, t-тест, `lm()`, train/test	5-23-r/103, Основы статистики

Часть III — Python

Глава	Тема	Статья
10	Jupyter, пакеты	Python для анализа данных, 5-02-python
11–12	NumPy, pandas, groupby, визуализация	NumPy — массивы и матрицы — NumPy, Pandas — типовые операции при анализе данных, Pandas — типовые операции — примеры, Очистка и подготовка данных в Pandas, Табличные данные — Pandas, Polars, SQL и PySpark
13	EDA, t-тест, регрессия, split	Python для анализа данных, текст как признаки (TF-IDF), тональность на PyTorch, 6-ai / ML (введение)

Глава 14 — куда дальше

Тема книги	Материал
План экспериментов, A/B	Основы статистики — A/B, Анализ данных — итоги — итоги
Контроль версий	Git
Этика данных	Ошибки интерпретации и манипуляции статистикой — манипуляции, Как использовать ИИ для анализа данных — ИИ в аналитике

Один анализ — три среды (идея книги)

На примере чаевых в ресторане (tips в seaborn / учебных CSV):

Шаг	Excel	R	Python
Загрузка	Открыть `.xlsx` / CSV	`read.csv()`, `readxl`	`pd.read_csv()`
Осмотр	`ЧСТОТА`, сводная	`str()`, `summary()`	`df.info()`, `describe()`
Группировка	сводная по `day`	`group_by()` + `summarise()`	`groupby().agg()`
График	диаграмма по сводной	`ggplot(aes(...))`	`sns.boxplot()` / `plot()`
t-тест	надстройка / вручную	`t.test()`	`scipy.stats.ttest_ind()`
Регрессия	линия тренда, `ЛИНЕЙН()`	`lm()`	`statsmodels` / `sklearn`

Сводка команд pandas — Pandas — типовые операции при анализе данных; сравнение с SQL и Polars — Табличные данные — Pandas, Polars, SQL и PySpark.

Учебный набор tips

В Python: import seaborn as sns; tips = sns.load_dataset("tips"). Для R экспортируйте тот же CSV из Python или возьмите любой открытый датасет с похожей структурой (счёт, чаевые, категории).

R или Python — что выбрать первым

Критерий	R	Python
Уже знаете статистику в вузе на R	✓ естественный переход
Цель — ML, бэкенд, MLOps		✓ экосистема шире
Только отчёты и ggplot	✓ tidyverse	seaborn/matplotlib
Команда пишет на Python		✓
Академические пакеты (биостаты)	✓ CRAN	частично

Ветки R и Python параллельны: можно сначала довести до конца одну, затем повторить те же шаги во второй для сравнения синтаксиса. После Разведочный анализ данных в Excel разумно пройти Основы статистики и Линейная регрессия — Excel, R и Python, затем выбрать R или Python.

Маршрут Excel → R → Python

Для кого этот маршрут

Стек анализа данных

Соответствие книги и энциклопедии

Часть I — Excel (основы)

Часть II — R

Часть III — Python

Глава 14 — куда дальше

Один анализ — три среды (идея книги)

R или Python — что выбрать первым

Рекомендуемый порядок в энциклопедии

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Для кого этот маршрут​

Стек анализа данных​

Соответствие книги и энциклопедии​

Часть I — Excel (основы)​

Часть II — R​

Часть III — Python​

Глава 14 — куда дальше​

Один анализ — три среды (идея книги)​

R или Python — что выбрать первым​

Рекомендуемый порядок в энциклопедии​

Связанные темы

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Для кого этот маршрут

Стек анализа данных

Соответствие книги и энциклопедии

Часть I — Excel (основы)

Часть II — R

Часть III — Python

Глава 14 — куда дальше

Один анализ — три среды (идея книги)

R или Python — что выбрать первым

Рекомендуемый порядок в энциклопедии