Перейти к основному содержимому

Маршрут Excel → R → Python

Аналитику Разработчику

Для кого этот маршрут

Многие аналитики годами работают в Excel, затем слышат, что «настоящая» аналитика — только в коде. На практике разумный путь — наращивать стек, а не отбрасывать таблицы: EDA и прототипы остаются в Excel, воспроизводимые отчёты и модели переезжают в R или Python.

Статья собирает в один маршрут переход от таблиц к коду и ссылки на материалы энциклопедии. Логика та же, что в типовых курсах прикладной аналитики: сначала Excel и статистика, затем параллельные ветки R и Python с одинаковыми шагами (загрузка → EDA → тесты → регрессия).


Стек анализа данных

СлойРольКогда достаточно
Электронные таблицыEDA, разовые расчёты, презентацияДо ~1 млн строк на машине, один аналитик
Power Query / сводныеПовторяемая загрузка и трансформация без VBAРегулярные отчёты из нескольких файлов
BI (Power BI и др.)Модель «звезда», дашборды, RLSSelf-service для бизнеса — 43
SQL + DWHЕдиный источник правды, большие объёмыSQL, 11
R / PythonСтатистика, ML, автоматизация, gitВоспроизводимость, сложные модели, CI

VBA в книге упоминается как мост к автоматизации внутри Excel; для новых проектов чаще выбирают Power Query или вынос логики в Python/R.


Соответствие книги и энциклопедии

Часть I — Excel (основы)

Глава книгиТемаСтатья энциклопедии
1EDA, переменные, графики429 — EDA в Excel
2Вероятность, распределения42 — Основы статистики
2Вероятность431
3Инференциальная статистика42, 3 — ошибки интерпретации
4Корреляция, регрессия432, 422 — причинность
5Стек, BI, языки12 — Data Science, 43 — Power BI

Часть II — R

ГлаваТемаСтатья
6–7RStudio, data.frame, импорт5-23-r/7, 5-23-r/4
8dplyr, tidyr, ggplot25-23-r/103, 5-23-r/2
9EDA, t-тест, lm(), train/test5-23-r/103, 42

Часть III — Python

ГлаваТемаСтатья
10Jupyter, пакеты424, 5-02-python
11–12pandas, groupby, визуализация428, 427, 426
13EDA, t-тест, регрессия, split424, 6-ai / ML (введение)

Глава 14 — куда дальше

Тема книгиМатериал
План экспериментов, A/B42 — A/B, 998 — итоги
Контроль версийGit
Этика данных3 — манипуляции, 421 — ИИ в аналитике

Один анализ — три среды (идея книги)

На примере чаевых в ресторане (tips в seaborn / учебных CSV):

ШагExcelRPython
ЗагрузкаОткрыть .xlsx / CSVread.csv(), readxlpd.read_csv()
ОсмотрЧСТОТА, своднаяstr(), summary()df.info(), describe()
Группировкасводная по daygroup_by() + summarise()groupby().agg()
Графикдиаграмма по своднойggplot(aes(...))sns.boxplot() / plot()
t-тестнадстройка / вручнуюt.test()scipy.stats.ttest_ind()
Регрессиялиния тренда, ЛИНЕЙН()lm()statsmodels / sklearn

Сводка команд pandas — 428; сравнение с SQL и Polars — 426.

Учебный набор tips

В Python: import seaborn as sns; tips = sns.load_dataset("tips"). Для R экспортируйте тот же CSV из Python или возьмите любой открытый датасет с похожей структурой (счёт, чаевые, категории).


R или Python — что выбрать первым

КритерийRPython
Уже знаете статистику в вузе на R✓ естественный переход
Цель — ML, бэкенд, MLOps✓ экосистема шире
Только отчёты и ggplot✓ tidyverseseaborn/matplotlib
Команда пишет на Python
Академические пакеты (биостаты)✓ CRANчастично

Ветки R и Python параллельны: можно сначала довести до конца одну, затем повторить те же шаги во второй для сравнения синтаксиса. После 429 разумно пройти 42 и 432, затем выбрать R или Python.


Рекомендуемый порядок в энциклопедии

  1. 429 — EDA в Excel
  2. 431 — вероятность, 42 — основы статистики
  3. 422, 432 — регрессия, 3 — ошибки интерпретации
  4. R7 → 103 или Python424 → 428 → 427
  5. 43 — Power BI, 12 — Data Science
  6. 998 — итоги, 999 — самопроверка

См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").