Дисперсия — это мера разброса данных относительно их среднего значения. Она показывает, насколько сильно отклоняются элементы выборки или генеральной совокупности от среднего значения. Чем больше дисперсия, тем более разбросаны данные.
Для начала давай разберем, что такое дисперсия, и как её вычисляют в статистике.
1. Формулы для расчета дисперсии
Существует два типа дисперсии: дисперсия для выборки (sample variance) и дисперсия для генеральной совокупности (population variance).
Дисперсия для генеральной совокупности:
Если у тебя есть данные о всей генеральной совокупности (например, если ты исследуешь всю группу людей или весь набор данных), то дисперсия рассчитывается по следующей формуле:
σ2=1N∑i=1N(xi−μ)2sigma^2 = frac{1}{N} sum_{i=1}^{N} (x_i — mu)^2
где:
σ2sigma^2 — дисперсия генеральной совокупности.
NN — количество элементов в генеральной совокупности.
xix_i — значения элементов в совокупности.
μmu — среднее значение генеральной совокупности.
Дисперсия для выборки:
Если у тебя есть только выборка из генеральной совокупности, то для корректного оценивания дисперсии, нужно делить на n−1n-1 (где nn — это количество элементов в выборке), а не на nn. Это связано с тем, что выборка имеет тенденцию занижать дисперсию генеральной совокупности. Поэтому формула для дисперсии выборки выглядит так:
s2=1n−1∑i=1n(xi−x‾)2s^2 = frac{1}{n-1} sum_{i=1}^{n} (x_i — overline{x})^2
где:
s2s^2 — дисперсия выборки.
nn — количество элементов в выборке.
xix_i — значения элементов в выборке.
x‾overline{x} — среднее значение выборки.
2. Пошаговый процесс вычисления дисперсии
2.1. Вычисление среднего значения
Для начала нужно найти среднее значение (или математическое ожидание) данных. Для генеральной совокупности это:
μ=1N∑i=1Nximu = frac{1}{N} sum_{i=1}^{N} x_i
А для выборки:
x‾=1n∑i=1nxioverline{x} = frac{1}{n} sum_{i=1}^{n} x_i
2.2. Вычисление отклонений от среднего
После нахождения среднего значения нужно вычислить отклонения каждого элемента от среднего значения, то есть разницу xi−μx_i — mu или xi−x‾x_i — overline{x} для выборки. Это покажет, на сколько каждый элемент отличается от среднего.
2.3. Возведение отклонений в квадрат
Чтобы избавиться от отрицательных значений отклонений, каждое отклонение возводится в квадрат. Полученные квадраты отклонений будут положительными и помогут более точно оценить разброс данных.
2.4. Вычисление суммы квадратов отклонений
Теперь нужно сложить все квадраты отклонений:
∑i=1n(xi−x‾)2sum_{i=1}^{n} (x_i — overline{x})^2
2.5. Деление на n−1n-1 или NN
Для выборки делим на n−1n — 1 (для корректной оценки дисперсии).
Для генеральной совокупности делим на NN.
2.6. Получение дисперсии
Дисперсия — это результат деления суммы квадратов отклонений на количество элементов (с учетом поправки на выборку):
s2=1n−1∑i=1n(xi−x‾)2s^2 = frac{1}{n-1} sum_{i=1}^{n} (x_i — overline{x})^2
или для генеральной совокупности:
σ2=1N∑i=1N(xi−μ)2sigma^2 = frac{1}{N} sum_{i=1}^{N} (x_i — mu)^2
3. Пример расчета дисперсии для выборки
Предположим, у тебя есть выборка из 5 значений: 2,4,6,8,102, 4, 6, 8, 10.
Находим среднее значение:
x‾=2+4+6+8+105=6overline{x} = frac{2 + 4 + 6 + 8 + 10}{5} = 6
Вычисляем отклонения от среднего:
(2−6)=−4,(4−6)=−2,(6−6)=0,(8−6)=2,(10−6)=4(2 — 6) = -4, quad (4 — 6) = -2, quad (6 — 6) = 0, quad (8 — 6) = 2, quad (10 — 6) = 4
Возводим отклонения в квадрат:
(−4)2=16,(−2)2=4,02=0,22=4,42=16(-4)^2 = 16, quad (-2)^2 = 4, quad 0^2 = 0, quad 2^2 = 4, quad 4^2 = 16
Вычисляем сумму квадратов отклонений:
16+4+0+4+16=4016 + 4 + 0 + 4 + 16 = 40
Делим на n−1n-1 (так как это выборка):
s2=405−1=404=10s^2 = frac{40}{5 — 1} = frac{40}{4} = 10
Значит, дисперсия выборки s2=10s^2 = 10.
4. Интерпретация дисперсии
Дисперсия показывает, насколько сильно варьируются данные вокруг среднего значения.
Если дисперсия мала, это значит, что данные сгруппированы около среднего значения. Если дисперсия велика — данные сильно разбросаны.
5. Важное замечание
Иногда полезно извлечь стандартное отклонение (корень из дисперсии), чтобы вернуть единицу измерения данных в исходную величину. Это помогает легче интерпретировать разброс данных, особенно если данные измеряются в конкретных единицах (например, метры, килограммы).
Стандартное отклонение:
σ=σ2sigma = sqrt{sigma^2}
или для выборки:
s=s2s = sqrt{s^2}
Заключение
Дисперсия — это мощный инструмент для оценки разброса данных. Она помогает понять, насколько велика вариативность в данных и как они распределены вокруг среднего значения.