2.5 Распределения непрерывных случайных величин До этого момента мы ограничивались только одной “разновидностью” СВ – дискретными, т.е. принимающими конечные, заранее оговоренные значения на любой из шкал Nom, Ord, Int или Rel .
Но теория и практика статистики требуют использовать понятие непрерывной СВ – допускающей любые числовые значения на шкале типа Int или Rel . И дело здесь вовсе не в том, что физические величины теоретически могут принимать любые значения – в конце концов, мы всегда ограничены точностью приборов их измерения. Причина в другом…
Математическое ожидание, дисперсия и другие параметры любых СВ практически всегда вычисляются по формулам, вытекающим из закона распределения. Это всего лишь числа и далеко не всегда целые.
Так обстоит дело в теории. На практике же, мы имеем только одно – ряд наблюдений над случайной (будем далее полагать – всегда дискретной) величиной. По этим наблюдениям можно строить таблицы или гистограммы, используя значения соответствующих частот (вместо вероятностей). Такие распределения принято называть выборочными, а сам набор данных наблюдений – выборкой.
Пусть мы имеем такое выборочное распределение некоторой случайной величины X – т.е. для ряда ее значений (вполне возможно неполного, с “пропусками" некоторых допустимых) у нас есть рассчитанные нами же частоты f i .
В большинстве случаев нам неизвестен закон распределения СВ или о его природе у нас имеются догадки, предположения, гипотезы, но значения параметров и моментов (а это неслучайные величины!) нам неизвестны.
Разумеется, частоты fi суть непрерывные СВ и, кроме первой проблемы – оценки распределения X, мы имеем ещё одну – проблему оценки распределения частот.
Существование закона больших чисел, доказанность центральной предельной теоремы поможет нам мало:
во-первых, надо иметь достаточно много наблюдений (чтобы частоты “совпали” с вероятностями), а это всегда дорого;
во-вторых, чаще всего у нас нет никаких гарантий в том, что условия наблюдения остаются неизменными, т.е. мы наблюдаем за независимой случайной величиной.
Теория статистики дает ключ к решению подобных проблем, предлагает методы “работы” со случайными величинами. Большинство этих методов появилось на свет как раз благодаря теоретическим исследованиям распределений непрерывных величин.
2.5.1Нормальное распределение Первым, фундаментальным по значимости, является т.н. нормальный закон распределения непрерывной случайной величины X, для которой допустимым является любое действительное числовое значение. Доказано, что такой закон распределения имеет величина, значение которой обусловлено достаточно большим количеством факторов (причин).
Для вычисления вероятности того, что X лежит в заранее заданном диапазоне, получено выражение, которое называют интегралом вероятности:
P(a X b) =
Обратим внимание на то, что в это выражение входят две константы (параметра) и . Как и для любой (не обязательно дискретной) СВ, здесь также имеют смысл понятия моментов распределения и оказывается, что
M(X) = , а D(x) = 2 . {2–10}
Для непрерывно распределенных величин не существует понятия вероятности конкретного значения. Вопрос – “какова вероятность достижения температурой воздуха значения 14 градусов?” – некорректен. Все зависит от прибора измерения, его чувствительности, ошибок измерения. Но вместе с тем функция под интегралом вероятности существует, она однозначно определена:
(X) = ,
ее график (аналог гистограммы) имеет вид:
(X)
– 3 +3
а площадь под кривой на заданном интервале X определяет вероятность попадания в этот интервал.
Чаще всего закон нормального распределения используется для нормированной случайной величины
Z = (X – ) /, {2–11} у которой M(Z)=0; D(Z)=1. {2–12}
Отметим ряд других особенностей этого распределения, полагая его нормированным.
Доказано, что целый ряд “классических” распределений (как дискретных, так и непрерывных) стремятся к нормальному при непрерывном изменении их внутренних параметров.
Симметрия нормального распределения позволяет достаточно просто оценивать вероятность “попадания” случайной нормированной величины в заданный диапазон. Очень часто в прикладной статистике приходится использовать понятие “маловероятного” значения. Для нормированной величины с нормальным распределением вероятность попадания в диапазон 3 составляет 0.9973 (правило “трех сигм”).
Особую роль играет нормальное распределение при решении вопросов о “представительности” наблюдений. Оказывается, что работа с выборочными распределениями в большинстве случаев позволяет решить проблему оценки наших предварительных выводов, предположений, гипотез – с использованием разработанных и теоретически обоснованных приемов на базе нормального закона.
2.5.2 Распределения выборочных значений параметров нормального распределения Пусть у нас имеется некоторая непрерывная случайная величина X , распределенная нормально с математическим ожиданием и среднеквадратичным отклонением . Если мы имеем n наблюдений над такой величиной (имеем выборку объемом n из генеральной совокупности) , то выборочные значения Mx и Sx являются также случайными величинами и нам крайне важно знать их законы распределения. Это необходимо как для оценки доверия к этим показателям, так и для проверки принадлежности исходного распределения к нормальному. Существует ряд теоретически обоснованных выводов по этой проблеме:
величина имеет нормированное нормальное распределение, что позволяет оценивать Mx при заранее известной дисперсии;
величина имеет так называемое распределение Стьюдента, для которого также имеется выражение плотности вероятности и построены таблицы;
величина имеет распределение "хи–квадрат", также с аналитической функцией плотности и рассчитанными по ней таблицами.
Отметим, что распределения Стьюдента и "хи–квадрат" имеют свой внутренний параметр, который принято называть числом степеней свободы. Этот параметр полностью определяется объемом выборки (численностью наблюдений) и выбирается обычно равным m =(n – 1).
|