О разделе
Длинные листинги (от ~15 строк) вынесены в каталог code.spirzen.ru и подгружаются в статьях через ExternalCodeEmbed — так HTML энциклопедии не раздувается, а код остаётся с подсветкой, вкладками и сериями "шаг 1…N". Короткие фрагменты (одна формула DAX, пара строк pandas, SQL до staging) по-прежнему прямо в markdown. Диаграммы mermaid и интерактив — на месте или в play.spirzen.ru.
Раздел выстроен от общей картины к инструментам и прикладным сценариям. Если вы ещё не уверенно работаете с ПК, файлами и браузером — сначала Основы компьютерной грамотности.
Рекомендуемый порядок для первого прохода:
- Старт из Excel — Работа с Microsoft Excel — основы → Excel и Google Sheets — формулы — формулы с разбором → Разведочный анализ данных в Excel — EDA в Excel → Основы статистики — статистика → Маршрут Excel → R → Python — маршрут Excel → R → Python → ветка Python для анализа данных — Python или 5-23-r/103 — R.
- Анализ данных — OLTP/OLAP, семантика, DAX, жизненный цикл аналитики.
- Data Science — роли, стек и подготовка данных для ML (нормализация, split, аугментация); до Pandas — Python — файлы и CSV (stdlib); NumPy — массивы и матрицы; типовые операции Pandas; примеры pandas с разбором; практикум — Pandas Data Viewer (Tkinter + pandas — загрузка CSV/Excel, поиск, статистика); текст как признаки — TF-IDF; практикум — распознавание цифр на PyTorch (MNIST, CNN, GUI-инференс); практикум — тональность отзывов на PyTorch; SQL — реальные кейсы (groupby, join, суммы — тот же смысл, что в SQL); напоминалка Pandas / Polars / SQL / PySpark / Excel; очистка в Pandas.
- Пакетная работа с данными — теория batch, bulk, chunk, транзакции, идемпотентность, разбиение тяжёлых операций (хаб перед ETL и потоком).
- Big Data (в т. ч. Data Warehouse, Data Lake и Data Mesh), ETL/ELT, потоковая аналитика — масштаб, конвейеры, события в реальном времени.
- Дата-майнинг, причинно-следственный анализ, ошибки интерпретации — закономерности, корреляция и критическое мышление.
- Python для анализа (очистка таблиц — Очистка и подготовка данных в Pandas), ИИ в аналитике (промпты — библиотека), Power BI — практика и self-service. Числовые массивы — NumPy — массивы и матрицы — NumPy; текст отчёта с формулами — LaTeX — формулы для отчётов; символьная математика (уравнения, производные) — SymPy — уравнения и производные; графики из Python — Matplotlib — графики.
Углубление по тому же маршруту — Вероятность для аналитика данных — вероятность, Линейная регрессия — Excel, R и Python — регрессия в Excel, R и Python.
Прикладные кейсы: технологии в спорте, умный дом (IoT и телеметрия). Итоги — в Анализ данных — итоги, самопроверка — в Анализ данных — чек-лист.
Анализ данных
Интерпретация данных представляет собой процесс перевода количественных результатов анализа в качественное понимание явлений и процессов.
Big Data
Big Data — это относительное состояние, при котором объём данных превышает возможности традиционных систем хранения и обработки с точки зрения производительности, стоимости или масштабируемости.
Data Science
Data Science - междисциплинарный подход к извлечению знаний из данных через статистику, моделирование и предметную экспертизу.
Дата майнинг
Дата-майнинг и KDD - связь с полным циклом от постановки задачи до интерпретации найденных закономерностей в данных.
Ошибки интерпретации и манипуляции статистикой
Критическое мышление в анализе. Фиксация на цифрах и ложь в статистике.
Умный дом
Интегрированная система управления инженерными и бытовыми компонентами жилого пространства, построенная на принципах автоматизации.
Технологии в спорте
Поддержка физической активности, повышение эффективности тренировок, контроль состояния организма.
Основы статистики
Базовые показатели. Как работать с представлениями данных.
Как использовать ИИ для анализа данных
ИИ в анализе данных - автоматизация поиска закономерностей и поддержка решений с помощью машинного обучения и нейросетевых моделей.
Причинно-следственный анализ
Причинно-следственные связи в анализе - как действия и условия порождают измеримые результаты и выводы.
Потоковая аналитика в реальном времени
Потоковая аналитика в реальном времени - обработка событий по мере поступления и извлечение сигналов без обязательного долгого хранения сырых данных.
Python для анализа данных
Описательная статистика служит для краткого обобщения свойств набора данных. Она позволяет понять центральную тенденцию, разброс и форму распределения.
ETL-ELT и оркестрация
ETL, ELT и оркестрация - как связывают задачи загрузки и преобразования данных в единые управляемые конвейеры.
Табличные данные — Pandas, Polars, SQL и PySpark
Напоминалка: одна и та же операция над таблицей в Pandas, Polars, SQL и PySpark — импорт, фильтр, join, group by и др.
Очистка и подготовка данных в Pandas
Напоминалка по pandas: пропуски и дубликаты, осмотр таблицы, типы и имена столбцов, фильтрация, объединение и группировка перед аналитикой.
Pandas — типовые операции при анализе данных
Напоминалка по pandas — загрузка и экспорт, выбор строк, groupby, статистика, очистка, временные ряды, строки и полезные приёмы для повседневного EDA.
Разведочный анализ данных в Excel
EDA в электронных таблицах — наблюдения и переменные, категориальные и количественные признаки, сводные таблицы и графики перед переходом к Python и R.
Power BI и self-service аналитика
Power BI — платформа Microsoft для интерактивных отчётов и дашбордов. Аналитик подключает источники (Excel, SQL, облачные хранилища), строит модель данных, публикует отчёт для бизнеса.
Маршрут Excel → R → Python
Как перенести аналитику из электронных таблиц в R и Python — стек инструментов, этапы маршрута и ссылки на материалы энциклопедии.
Вероятность для аналитика данных
Выборочное пространство, дискретные и непрерывные распределения, симуляции в Excel и связь с проверкой гипотез.
Линейная регрессия — Excel, R и Python
Корреляция, линия тренда и линейная модель в электронных таблицах, R (lm) и Python (statsmodels / sklearn) на одном примере.
Пакетная работа с данными
Batch, bulk, chunk и поток — теория пакетной обработки, массовые CRUD в одном запросе, разбиение тяжёлых операций, транзакции, идемпотентность, ETL, очереди, MapReduce и инструменты.
Анализ данных — итоги
Итоги раздела «Анализ данных» — FAQ и краткие ответы по теме.
Анализ данных — чек-лист
Чек-лист раздела «Анализ данных» — вопросы для самопроверки.
Анализ данных — о разделе
Подборка материалов раздела Анализ данных в энциклопедии Вселенная IT.
В подборках
Статья входит в тематические подборки и блок "С чего начать?" на главной. Соседние шаги того же маршрута:
Аналитика данных — Продвинутые операции с данными — о разделе, Python — о разделе, NoSQL — о разделе, R — о разделе, SQL — о разделе, Основы баз данных — о разделе.