Линейная регрессия — Excel, R и Python
От корреляции к модели
Корреляция (коэффициент Пирсона) измеряет силу линейной связи двух числовых переменных. Простая линейная регрессия подбирает прямую y = β₀ + β₁·x + ε, где y — отклик (например, чаевые), x — предиктор (сумма счёта), β₀ — свободный член (intercept), β₁ — наклон.
Регрессия даёт уравнение для прогноза и тест на значимость наклона. Она не доказывает причинность — см. 422.
Теория углублена в 42; здесь — параллель в трёх средах на учебном наборе tips (счёт total_bill, чаевые tip).
Excel
| Шаг | Действие |
|---|---|
| 1 | Столбцы total_bill, tip; scatter plot |
| 2 | Добавить линию тренда → линейная; показать уравнение на графике |
| 3 | Функции НАКЛОН(y; x) и ОТРЕЗОК(y; x) — те же β₁ и β₀ |
| 4 | КОРРЕЛ — сверить с наклоном и масштабом данных |
Надстройка «Анализ данных» → Регрессия выводит таблицу с R², стандартными ошибками и F-тестом — удобно сверить с R/Python.
R
tips <- read.csv("tips.csv", stringsAsFactors = FALSE)
fit <- lm(tip ~ total_bill, data = tips)
summary(fit)
summary() — коэффициенты, стандартные ошибки, t-тест для β₁, R². График:
plot(tips$total_bill, tips$tip, pch = 16, col = "#33333388")
abline(fit, col = "steelblue", lwd = 2)
Разбиение train/test для оценки прогноза на новых строках — sample(), затем lm() на обучающей части; метрика RMSE на тесте (42 — предсказание).
Python
import pandas as pd
import seaborn as sns
import statsmodels.formula.api as smf
tips = sns.load_dataset("tips")
model = smf.ols("tip ~ total_bill", data=tips).fit()
print(model.summary())
Для только прогноза без полной таблицы коэффициентов:
from sklearn.linear_model import LinearRegression
import numpy as np
X = tips[["total_bill"]].values
y = tips["tip"].values
reg = LinearRegression().fit(X, y)
print(reg.intercept_, reg.coef_[0])
Визуализация — sns.regplot(data=tips, x="total_bill", y="tip") (424 — Seaborn).
Сравнение результатов
| Элемент | Excel | R lm | Python statsmodels |
|---|---|---|---|
| Наклон β₁ | НАКЛОН | Coefficients | total_bill coef |
| Перехват β₀ | ОТРЕЗОК | (Intercept) | Intercept |
| R² | линия тренда / отчёт регрессии | Multiple R-squared | R-squared |
| p-значение наклона | отчёт надстройки | `Pr(> | t |
Числа должны совпасть с точностью до округления. Расхождение — сигнал проверить фильтры строк, пропуски или разные подмножества данных.
См. также
| Материал | Тема |
|---|---|
| 431 — вероятность | перед регрессией |
| 426 — таблицы + Excel | операции до модели |
| 103 — R, tips | полный пример в R |
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Интерпретация данных представляет собой процесс перевода количественных результатов анализа в качественное понимание явлений и процессов. Big Data — это относительное состояние, при котором объём данных превышает возможности традиционных систем хранения и обработки с точки зрения производительности, стоимости или масштабируемости. Data Science - междисциплинарный подход к извлечению знаний из данных через статистику, моделирование и предметную экспертизу. Дата-майнинг и KDD - связь с полным циклом от постановки задачи до интерпретации найденных закономерностей в данных. Критическое мышление в анализе. Фиксация на цифрах и ложь в статистике. Интегрированная система управления инженерными и бытовыми компонентами жилого пространства, построенная на принципах автоматизации. Поддержка физической активности, повышение эффективности тренировок, контроль состояния организма. Базовые показатели. Как работать с представлениями данных. ИИ в анализе данных - автоматизация поиска закономерностей и поддержка решений с помощью машинного обучения и нейросетевых моделей. Причинно-следственные связи в анализе - как действия и условия порождают измеримые результаты и выводы. Потоковая аналитика в реальном времени - обработка событий по мере поступления и извлечение сигналов без обязательного долгого хранения сырых данных. Описательная статистика служит для краткого обобщения свойств набора данных. Она позволяет понять центральную тенденцию, разброс и форму распределения.Анализ данных
Big Data
Data Science
Дата майнинг
Ошибки интерпретации и манипуляции статистикой
Умный дом
Технологии в спорте
Основы статистики
Как использовать ИИ для анализа данных
Причинно-следственный анализ
Потоковая аналитика в реальном времени
Python для анализа данных