Чек-лист самопроверки
Разработчику
Аналитику
Тестировщику
Архитектору
Инженеру
Чек-лист самопроверки
- Могу ли я чётко сформулировать цель аналитического проекта в терминах бизнеса?
- Понимаю ли я разницу между операционными (OLTP) и аналитическими (OLAP) данными?
- Умею ли я определить, какие источники данных релевантны для поставленной задачи?
- Знаю ли я, как оценить качество данных: полноту, согласованность, актуальность?
- Могу ли я выполнить очистку данных: обработать пропуски, удалить дубликаты, исправить выбросы?
- Понимаю ли я принципы нормализации и денормализации данных?
- Умею ли я строить схемы «звезда» и «снежинка» для хранилищ данных?
- Знаю ли я, когда использовать Данные lake, а когда — Данные warehouse?
- Могу ли я объяснить разницу между ETL и ELT?
- Понимаю ли я, как работает жизненный цикл аналитического проекта (например, CRISP-DM)?
- Умею ли я проводить исследовательский анализ данных (EDA)?
- Знаю ли я основные статистические показатели: среднее, медиана, мода, дисперсия, квартили?
- Могу ли я визуализировать распределение данных: гистограммы, box-plot, Q-Q plot?
- Умею ли я выявлять и интерпретировать корреляции между переменными?
- Понимаю ли я разницу между корреляцией и причинно-следственной связью?
- Знаю ли я, как проверить гипотезу с помощью статистических тестов?
- Могу ли я построить и интерпретировать сводную таблицу (pivot table)?
- Умею ли я работать с временными рядами: выделять тренд, сезонность, остаток?
- Понимаю ли я, что такое стационарность временного ряда и как её проверить?
- Знаю ли я основные задачи машинного обучения: классификация, регрессия, кластеризация?
- Могу ли я выбрать подходящий алгоритм для конкретной задачи?
- Умею ли я оценивать качество модели: accuracy, precision, recall, F1, AUC-ROC?
- Понимаю ли я, что такое переобучение и недообучение модели?
- Знаю ли я методы борьбы с переобучением: регуляризация, кросс-валидация?
- Могу ли я объяснить, как работает кросс-валидация?
- Умею ли я интерпретировать важность признаков (feature importance) в модели?
- Понимаю ли я, что такое Данные drift и concept drift?
- Знаю ли я, как мониторить качество модели в production?
- Могу ли я построить многомерный куб (OLAP cube)?
- Умею ли я писать выражения на языке DAX?
- Понимаю ли я разницу между мерой и вычисляемым столбцом в Power BI?
- Знаю ли я, как работает контекст фильтрации в DAX?
- Могу ли я создать семантическую модель данных для self-service аналитики?
- Умею ли я проектировать интерактивные дашборды с учётом принципов визуальной грамотности?
- Понимаю ли я, как избежать визуальных искажений на графиках?
- Знаю ли я основные типы ассоциативных правил и как их оценивать (support, confidence, lift)?
- Могу ли я применить алгоритм кластеризации и оценить качество разбиения?
- Умею ли я обнаруживать аномалии в данных с помощью статистических и ML-методов?
- Понимаю ли я, как работает анализ последовательностей (sequence mining)?
- Знаю ли я различия между Web Content, Web Structure и Web Usage Mining?
- Могу ли я спроектировать пайплайн для автоматизированного анализа?
- Умею ли я документировать аналитический процесс: гипотезы, методы, ограничения?
- Понимаю ли я этические риски при работе с персональными и биометрическими данными?
- Знаю ли я требования законодательства (ФЗ-152, GDPR) к обработке персональных данных?
- Могу ли я применить методы анонимизации: k-anonymity, дифференциальная приватность?
- Умею ли я различать легальный и нелегальный дата-майнинг?
- Понимаю ли я когнитивные искажения, которые могут исказить выводы (overfitting, survivorship bias)?
- Знаю ли я, как проверить, не является ли найденная закономерность случайной (multiple Тестирование correction)?
- Могу ли я объяснить результаты анализа нетехнической аудитории?
- Готов ли я признать, что данные не всегда дают однозначный ответ, и что требуется смирение перед неопределённостью?
См. также
Другие статьи этого же раздела в боковом меню (как на странице «О разделе»). Интерпретация данных представляет собой процесс перевода количественных результатов анализа в качественное понимание явлений и процессов. Big Данные — это относительное состояние, при котором объём данных превышает возможности традиционных систем хранения и обработки с точки зрения производительности, стоимости или масштабируемости. Данные Наука (наука о данных) представляет собой междисциплинарную область, объединяющую методы статистики, информатики, математического моделирования и предметной экспертизы для извлечения знаний и… В научной литературе дата-майнинг часто отождествляется с задачей Knowledge Discovery in Databases (KDD) — обнаружением знаний в базах данных. Хотя KDD формально описывает весь цикл от постановки… Критическое мышление в анализе. Фиксация на цифрах и ложь в статистике. Интегрированная система управления инженерными и бытовыми компонентами жилого пространства, построенная на принципах автоматизации. Поддержка физической активности, повышение эффективности тренировок, контроль состояния организма. Базовые показатели. Как работать с представлениями данных. Анализ данных с помощью ИИ — это автоматизация обработки информации и поиска скрытых закономерностей с применением нейронных сетей и машинного обучения. Современные системы справляются с задачами… Фундаментальным элементом понимания любого процесса выступает взаимосвязь между действиями и результатами. Причина представляет собой событие, действие или условие, которое порождает изменение… Потоковая аналитика в реальном времени представляет собой методологию обработки данных при их генерации без задержек на долговременное хранение. Процесс позволяет извлекать полезную информацию за… Описательная статистика служит для краткого обобщения свойств набора данных. Она позволяет понять центральную тенденцию, разброс и форму распределения.Анализ данных
Big Данные
Данные Наука
Дата майнинг
Ошибки интерпретации и манипуляции статистикой
Умный дом
Технологии в спорте
Основы статистики
Как использовать ИИ для анализа данных
Причинно-следственный анализ
Потоковая аналитика в реальном времени
Python для анализа данных