Анализ данных — чек-лист

НЕ ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Разработчику Аналитику Тестировщику
Архитектору Инженеру

Загрузка вопросов…

Чек-лист самопроверки

Могу ли я чётко сформулировать цель аналитического проекта в терминах бизнеса?
Понимаю ли я разницу между операционными (OLTP) и аналитическими (OLAP) данными?
Умею ли я определить, какие источники данных релевантны для поставленной задачи?
Знаю ли я, как оценить качество данных — полноту, согласованность, актуальность?
Могу ли я выполнить очистку данных — обработать пропуски, удалить дубликаты, исправить выбросы?
Понимаю ли я принципы нормализации и денормализации данных?
Умею ли я строить схемы "звезда" и "снежинка" для хранилищ данных?
Знаю ли я, когда использовать data lake, а когда — data warehouse?
Могу ли я объяснить разницу между ETL и ELT?
Понимаю ли я, как работает жизненный цикл аналитического проекта (например, CRISP-DM)?
Умею ли я проводить исследовательский анализ данных (EDA)?
Знаю ли я основные статистические показатели — среднее, медиана, мода, дисперсия, квартили?
Могу ли я визуализировать распределение данных — гистограммы, box-plot, Q-Q plot?
Умею ли я выявлять и интерпретировать корреляции между переменными?
Понимаю ли я разницу между корреляцией и причинно-следственной связью?
Знаю ли я, как проверить гипотезу с помощью статистических тестов?
Могу ли я построить и интерпретировать сводную таблицу (pivot table)?
Умею ли я работать с временными рядами — выделять тренд, сезонность, остаток?
Понимаю ли я, что такое стационарность временного ряда и как её проверить?
Знаю ли я основные задачи машинного обучения — классификация, регрессия, кластеризация?
Могу ли я выбрать подходящий алгоритм для конкретной задачи?
Умею ли я оценивать качество модели — accuracy, precision, recall, F1, AUC-ROC?
Понимаю ли я, что такое переобучение и недообучение модели?
Знаю ли я методы борьбы с переобучением: регуляризация, кросс-валидация?
Могу ли я объяснить, как работает кросс-валидация?
Умею ли я интерпретировать важность признаков (feature importance) в модели?
Понимаю ли я, что такое data drift и concept drift?
Знаю ли я, как мониторить качество модели в production?
Могу ли я построить многомерный куб (OLAP cube)?
Умею ли я писать выражения на языке DAX?
Понимаю ли я разницу между мерой и вычисляемым столбцом в Power BI?
Знаю ли я, как работает контекст фильтрации в DAX?
Могу ли я создать семантическую модель данных для self-service аналитики?
Умею ли я проектировать интерактивные дашборды с учётом принципов визуальной грамотности?
Понимаю ли я, как избежать визуальных искажений на графиках?
Знаю ли я основные типы ассоциативных правил и как их оценивать (support, confidence, lift)?
Могу ли я применить алгоритм кластеризации и оценить качество разбиения?
Умею ли я обнаруживать аномалии в данных с помощью статистических и ML-методов?
Понимаю ли я, как работает анализ последовательностей (sequence mining)?
Знаю ли я различия между Web Content, Web Structure и Web Usage Mining?
Могу ли я спроектировать пайплайн для автоматизированного анализа?
Умею ли я документировать аналитический процесс — гипотезы, методы, ограничения?
Понимаю ли я этические риски при работе с персональными и биометрическими данными?
Знаю ли я требования законодательства (ФЗ-152, GDPR) к обработке персональных данных?
Могу ли я применить методы анонимизации: k-anonymity, дифференциальная приватность?
Умею ли я различать легальный и нелегальный дата-майнинг?
Понимаю ли я когнитивные искажения, которые могут исказить выводы (overfitting, survivorship bias)?
Знаю ли я, как проверить, не является ли найденная закономерность случайной (multiple Testing correction)?
Могу ли я объяснить результаты анализа нетехнической аудитории?
Готов ли я признать, что данные не всегда дают однозначный ответ, и что требуется смирение перед неопределённостью?

Маршрут Excel → R → Python

После Разведочный анализ данных в Excel–Линейная регрессия — Excel, R и Python и Маршрут Excel → R → Python:

Могу ли я классифицировать столбцы набора как категориальные, количественные или порядковые?
Понимаю ли я разницу между EDA и проверкой гипотез (пять шагов вывода)?
Могу ли я построить сводную таблицу или groupby и объяснить, что показывает агрегат?
Умею ли я назвать хотя бы один пример ложной корреляции и скрытой переменной?
Согласуются ли коэффициенты регрессии в Excel и в lm() / statsmodels на одном CSV?
Знаю ли я, когда оставить задачу в Excel, а когда перенести скрипт в git и Jupyter/RStudio?
Могу ли я загрузить набор tips и повторить boxplot по time в R или Python?
Понимаю ли я, зачем нужны план эксперимента, этика и контроль версий после учебного цикла (Анализ данных — итоги)?

Анализ данных — чек-лист

Чек-лист самопроверки

Маршрут Excel → R → Python

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Чек-лист самопроверки​

Маршрут Excel → R → Python​

См. также

Анализ данных

Big Data

Data Science

Дата майнинг

Ошибки интерпретации и манипуляции статистикой

Умный дом

Технологии в спорте

Основы статистики

Как использовать ИИ для анализа данных

Причинно-следственный анализ

Потоковая аналитика в реальном времени

Python для анализа данных

Чек-лист самопроверки

Маршрут Excel → R → Python