5.2 Оценка наблюдений при известном законе распределения Не всегда закон распределения СВ представляет для нас полную тайну. В ряде случаев у нас могут быть основания предполагать, что случайные события, определяющие наблюдаемые нами значения этой величины, подчиняются определенной вероятностной схеме.
В таких случаях использование методов выдвижения и проверки гипотез даст нам информацию о параметрах распределения, что может оказаться вполне достаточно для решения конкретной экономической задачи.
5.2.1 Оценка параметров нормального распределения Нередки случаи, когда у нас есть некоторые основания считать интересующую нас СВ распределенной по нормальному закону. Существуют специальные методы проверки такой гипотезы по данным наблюдений, но мы ограничимся напоминанием природы этого распределения – наличия влияния на значение данной величины достаточно большого количества случайных факторов.
Напомним себе также, что у нормального распределения всего два параметра – математическое ожидание и среднеквадратичное отклонение .
Пусть мы произвели 40 наблюдений над такой случайной величиной X и эти наблюдения представили в виде: Таблица 5-2 Xi
| 85
| 105
| 125
| 145
| 165
| 185
| 205
| 225
| Всего
| ni
| 4
| 3
| 3
| 2
| 4
| 7
| 12
| 5
| 40
| f i
| 0.100
| 0.075
| 0.075
| 0.050
| 0.100
| 0.175
| 0.300
| 0.125
| 1
| Если мы усредним значения наблюдений, то формула расчета выборочного среднего
Mx = Xi ni = Xi fi {5–1} будет отличаться от выражения для математического ожидания только использованием частот вместо вероятностей.
В нашем примере выборочное среднее значение составит Mx = 171.5 , но из этого пока еще нельзя сделать заключение о равенстве = 171.5.
Во-первых, Mx – это непрерывная СВ, следовательно, вероятность ее точного равенства чему-нибудь вообще равна нулю.
Во-вторых, нас настораживает отсутствие ряда значений X.
В-третьих, частоты наблюдений стремятся к вероятностям при бесконечно большом числе наблюдений, а у нас их только 40. Не мало ли?
Если мы усредним теперь значения квадратов отклонений наблюдений от выборочного среднего, то формула расчета выборочной дисперсии
Dx = (Sx)2 = (Xi – Mx)2 ni = (Xi)2 fi – (Mx)2 {5–2} также не будет отличаться от формулы, определяющей дисперсию 2 .
В нашем примере выборочное значение среднеквадратичного отклонения составит Sx= 45.5 , но это совсем не означает, что =45.5.
И всё же – как оценить оба параметра распределения или хотя бы один из них по данным наблюдений, т.е. по уже найденным Mx и Sx?
Прикладная статистика дает следующие рекомендации:
значение дисперсии 2 считается неизвестным и решается первый вопрос – достаточно ли число наблюдений N для того, чтобы использовать вместо величины ее выборочное значение Sx;
если это так, то решается второй вопрос – как построить нулевую гипотезу о величине математического ожидания и как ее проверить.
Предположим вначале, что значение каким–то способом найдено. Тогда формулируется простая нулевая гипотеза Њ0: =Mx и осуществляется её проверка с помощью следующего критерия. Вычисляется вспомогательная функция (Z–критерий)
, {5-3} значение и знак которой зависят от выбранного нами предполагаемого .
Доказано, что значение Z является СВ с математическим ожиданием 0 , дисперсией 1 и имеет нормальное распределение.
Теперь важно правильно построить альтернативную гипотезу Њ1. Здесь чаще всего применяется два подхода.
Выбор одного из них зависит от того – большое или малое (по модулю) значение Z у нас получилось. Иными словами – как далеко от расчетного Mx мы выбрали гипотетическое ..
При малых отличиях между Mx и разумно строить гипотезы в виде
Њ0: = Mx;
Њ1: неизвестное нам значение лежит в пределах
Mx – Z 2k Mx + Z 2k {5–4} Критическое (соответствующее уровню значимости в 5%) значение критерия составляет при этом = 1.96 (двухсторонний критерий). Если оказывается, что выборочное значение критерия Z < 1.96, то гипотеза Њ0: =Mx принимается, данные наблюдений не противоречат ей.
Если же это не так, то мы “в утешение” получаем информацию другого вида – где, на каком интервале находится искомое значение .
При больших отличиях (в большую или меньшую сторону) между и Mx гипотезы строятся иначе Њ0: = Mx; Њ1: неизвестное нам значение лежит вне пределов, указанных в {5–4}.
Теперь критическое (соответствующее уровню значимости в 5%) значение критерия составляет Z 1k = 1.645 (односторонний критерий). Если оказывается, что выборочное значение критерияZ 1.645, то гипотеза Њ0: =Mx отвергается, данные наблюдений противоречат ей.
Если же это не так, то мы получаем информацию другого вида – где, на каком крае интервале находится искомое значение . Разумеется, для других (не 5%) значений уровня значимости Z1k и Z 2k являются другими.
Чуть сложнее путь проверки гипотез о математическом ожидании в случаях, когда нам неизвестна и приходится довольствоваться выборочным значением среднеквадратичного отклонения по данным наблюдений.
В этом случае вместо “z –критерия” используется т.н. “t–критерий” или критерий Стьюдента
, {5–5} в котором используется значение “несмещенной” оценки для дисперсии 2
(Sx)2 = (Xi – Mx)2 ni . {5–6}
Далее используется доказанное в теории положение – случайная величина t имеет специальное распределение Стьюдента с m=N–1 степенями свободы.
Существуют таблицы для этого распределения по которым можно найти вероятность ошибки первого рода или, что более удобно, – граничное значение этой величины при заданных заранее и m. Таким образом, если вычисленное нами значение t t(,m), то Њ0 отвергается, если же это не так – Њ0 принимается. Конечно, при большом количестве наблюдений (N>100…120) различие между z– и t–критериями несущественно. Значения критерия Стьюдента для =0.05 при разных количествах наблюдений составляют:
Таблица 5–3 m
| 1
| 2
| 3
| 4
| 5
| 6
| 7
| 8
| 9
| 10
| 20
| 30
| 40
| 120
| t
| 12.7
| 4.30
| 3.18
| 2.78
| 2.57
| 2.45
| 2.36
| 2.31
| 2.26
| 2.23
| 2.09
| 2.04
| 2.02
| 1.98
|
5.2.2 Оценка параметров дискретных распределений В ряде случаев работы с некоторой дискретной СВ нам удается построить вероятностную схему событий, приводящих к изменению значений данной величины. Иными словами – закон распределения нам известен, но неизвестны его параметры. И наша задача – научиться оценивать эти параметры по данным наблюдений.
Начнем с наиболее простого случая. Пусть у нас есть основания считать, что случайная величина X может принимать целочисленные значения на интервале [0…k…n] с вероятностями
P(X=k)=pk(1– p)n-k,
т.е. распределена по биномиальному закону. Так вот, – единственный параметр p этого распределения нас как раз и интересует.
Примером подобной задачи является чисто практический вопрос о контроле качества товара.
Пусть мы решили оценить качество одной игральной кости из партии, закупленной для казино. Проведя n=200 бросаний мы обнаружили появлений цифры 6 в X = 25 случаях.
Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6.
Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200 не совпадает с гипотетическим значением вероятности 1/6. Но это чисто умозрительное, дилетантское заключение.
Теория прикладной статистики рекомендует вычислить значение непрерывной СВ
, {5–7} т.е. использовать z–критерий (см. {5–3}).
В нашем примере наблюдаемое значение Z составит около –1.58. Следовательно, при пороговой вероятности в 5% условие Z< 1.96 выполняется и у нас нет оснований отбрасывать нулевую гипотезу о симметрии игральной кости.
Отметим, что z–критерий позволяет решать еще одну важную задачу – о достаточном числе испытаний.
Пусть нам требуется проверить качество товара – некоторых изделий, каждое из которых может быть годным или негодным (бракованным). Пусть допустимый процент брака составляет p=5%. Ясно, что чем больше испытаний мы проведем, тем надежнее будет наш статистический вывод – браковать партию товара (например, – 10000 штук) или считать её пригодной.
Если мы провели n=500 проверок и обнаружили X=30 бракованных изделий, то выдвинув гипотезу Њ0: p=5% , мы найдем выборочное значение критерия по {5–7}. Оно составит около 1.03, что меньше “контрольного” 1.96 . Значит, у нас нет оснований браковать всю партию.
Но возникает вопрос – сколько проверок достаточно для принятия решения с уровнем значимости в 5%? Для этого достаточно учесть допустимый процент брака (т.е. задать p), указать допустимое расхождение между ним и наблюдаемым процентом брака в выборке (d= p–X/n) и воспользоваться выражением
{5–8}
Если мы примем d=0.02, то получим ответ – вполне достаточно 456 проверок, чтобы убедиться в том, что реальный процент брака отличается от допустимого не более чем на 2%.
|