Перейти к основному содержимому

О разделе

Длинные листинги (от ~15 строк) вынесены в каталог code.spirzen.ru и подгружаются в статьях через ExternalCodeEmbed — так HTML энциклопедии не раздувается, а код остаётся с подсветкой, вкладками и сериями "шаг 1…N". Короткие фрагменты (одна формула DAX, пара строк pandas, SQL до staging) по-прежнему прямо в markdown. Диаграммы mermaid и интерактив — на месте или в play.spirzen.ru.

Раздел выстроен от общей картины к инструментам и прикладным сценариям. Если вы ещё не уверенно работаете с ПК, файлами и браузером — сначала Основы компьютерной грамотности.

Рекомендуемый порядок для первого прохода:

  1. Старт из ExcelРабота с Microsoft Excel — основыExcel и Google Sheets — формулы — формулы с разборомРазведочный анализ данных в Excel — EDA в ExcelОсновы статистики — статистикаМаршрут Excel → R → Python — маршрут Excel → R → Python → ветка Python для анализа данных — Python или 5-23-r/103 — R.
  2. Анализ данных — OLTP/OLAP, семантика, DAX, жизненный цикл аналитики.
  3. Data Science — роли, стек и подготовка данных для ML (нормализация, split, аугментация); до Pandas — Python — файлы и CSV (stdlib); NumPy — массивы и матрицы; типовые операции Pandas; примеры pandas с разбором; практикум — Pandas Data Viewer (Tkinter + pandas — загрузка CSV/Excel, поиск, статистика); текст как признаки — TF-IDF; практикум — распознавание цифр на PyTorch (MNIST, CNN, GUI-инференс); практикум — тональность отзывов на PyTorch; SQL — реальные кейсы (groupby, join, суммы — тот же смысл, что в SQL); напоминалка Pandas / Polars / SQL / PySpark / Excel; очистка в Pandas.
  4. Пакетная работа с данными — теория batch, bulk, chunk, транзакции, идемпотентность, разбиение тяжёлых операций (хаб перед ETL и потоком).
  5. Big Data (в т. ч. Data Warehouse, Data Lake и Data Mesh), ETL/ELT, потоковая аналитика — масштаб, конвейеры, события в реальном времени.
  6. Дата-майнинг, причинно-следственный анализ, ошибки интерпретации — закономерности, корреляция и критическое мышление.
  7. Python для анализа (очистка таблиц — Очистка и подготовка данных в Pandas), ИИ в аналитике (промпты — библиотека), Power BI — практика и self-service. Числовые массивы — NumPy — массивы и матрицы — NumPy; текст отчёта с формулами — LaTeX — формулы для отчётов; символьная математика (уравнения, производные) — SymPy — уравнения и производные; графики из Python — Matplotlib — графики.

Углубление по тому же маршруту — Вероятность для аналитика данных — вероятность, Линейная регрессия — Excel, R и Python — регрессия в Excel, R и Python.

Прикладные кейсы: технологии в спорте, умный дом (IoT и телеметрия). Итоги — в Анализ данных — итоги, самопроверка — в Анализ данных — чек-лист.


В подборках

Статья входит в тематические подборки и блок "С чего начать?" на главной. Соседние шаги того же маршрута:

Аналитика данныхПродвинутые операции с данными — о разделе, Python — о разделе, NoSQL — о разделе, R — о разделе, SQL — о разделе, Основы баз данных — о разделе.


Содержание