Перейти к основному содержимому

Вероятность для аналитика данных

Аналитику

Зачем вероятность в аналитике

После EDA вы описали выборку. Вопрос инференциальной статистики — насколько выводы переносятся на генеральную совокупность. Вероятность задаёт язык для этой неопределённости: случайный эксперимент, исходы, частоты, распределения.

На практике вероятность часто разбирают сначала в Excel (симуляции и формулы), затем переносят в R и Python. Здесь — сжатый конспект с отсылками к 42 и пяти шагам вывода.


Базовые понятия

ПонятиеСмыслПример
Случайный экспериментдействие с заранее неизвестным исходомбросок кубика, клик по баннеру
Пространство исходоввсе допустимые исходы6
Событиеподмножество исходов«выпало чётное» = 6
Вероятность P(A)число от 0 до 1; при равновероятных исходах — доля благоприятныхP(чётное) = 3/6

Условная вероятность P(A|B) — вероятность A при условии, что B уже произошло. Независимость — когда P(A|B) = P(A): знание B не меняет шансы A.


Дискретные и непрерывные распределения

ТипПеременнаяПримерыВ Excel / коде
Дискретноесчётные исходычисло кликов, оценка 1–5БИНОМ.РАСП, ПОИССОН; binom, poisson
Непрерывноезначения на отрезкевремя ответа, ростНОРМ.РАСП, гистограмма; norm, dnorm в R

Нормальное распределение — центральная модель для многих метрик и основа t-тестов при больших выборках (42 — нормальность).

Мини-симуляция в Excel

  1. Столбец A — формула =СЛЧИС() (или RAND()), протянуть на 1000 строк.
  2. Построить гистограмму — форма приближается к равномерному распределению на [0,1].
  3. Преобразовать: =НОРМ.ОБР(A1; 100; 15) — наблюдать «колокол».

Симуляция помогает почувствовать разброс до формул t-критерия: вы видите, что среднее по выборке прыгает от эксперимента к эксперименту.


Связь с проверкой гипотез

Идея вероятностиВ статистическом выводе
Распределение статистики при H₀p-значение, критическая область
Центральная предельная теоремадоверительный интервал для среднего
Независимость наблюденийкорректность t-теста, χ²

Практический цикл — пять шагов: выборка → гипотезы → план → расчёт → решение.


См. также

МатериалТема
432 — линейная регрессия в трёх средахот корреляции к модели
422 — причинностькорреляция ≠ причина
430 — маршрут по инструментамExcel → R → Python

См. также

Другие статьи этого же раздела в боковом меню (как на странице "О разделе").