Ошибка первого рода имеет место когда

Ошибки первого рода (англ. type I errors, α errors, false positives) и ошибки второго рода (англ. type II errors, β errors, false negatives) в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Содержание

  • 1 Определения
  • 2 О смысле ошибок первого и второго рода
  • 3 Вероятности ошибок (уровень значимости и мощность)
  • 4 Примеры использования
    • 4.1 Радиолокация
    • 4.2 Компьютеры
      • 4.2.1 Компьютерная безопасность
      • 4.2.2 Фильтрация спама
      • 4.2.3 Вредоносное программное обеспечение
      • 4.2.4 Поиск в компьютерных базах данных
      • 4.2.5 Оптическое распознавание текстов (OCR)
      • 4.2.6 Досмотр пассажиров и багажа
      • 4.2.7 Биометрия
    • 4.3 Массовая медицинская диагностика (скрининг)
    • 4.4 Медицинское тестирование
    • 4.5 Исследования сверхъестественных явлений
  • 5 См. также
  • 6 Примечания

Определения[править | править исходный текст]

Пусть дана выборка \mathbf{X} = (X_1,\ldots,X_n)^{\top} из неизвестного совместного распределения \mathbb{P}^{\mathbf{X}}, и поставлена бинарная задача проверки статистических гипотез:

 \begin{matrix} H_0 \\ H_1, \end{matrix}

где H_0 — нулевая гипотеза, а H_1 — альтернативная гипотеза. Предположим, что задан статистический критерий

f:\mathbb{R}^n \to \{H_0,H_1\},

сопоставляющий каждой реализации выборки \mathbf{X} = \mathbf{x} одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:

  1. Распределение \mathbb{P}^{\mathbf{X}} выборки \mathbf{X} соответствует гипотезе H_0, и она точно определена статистическим критерием, то есть f(\mathbf{x}) = H_0.
  2. Распределение \mathbb{P}^{\mathbf{X}} выборки \mathbf{X} соответствует гипотезе H_0, но она неверно отвергнута статистическим критерием, то есть f(\mathbf{x}) = H_1.
  3. Распределение \mathbb{P}^{\mathbf{X}} выборки \mathbf{X} соответствует гипотезе H_1, и она точно определена статистическим критерием, то есть f(\mathbf{x}) = H_1.
  4. Распределение \mathbb{P}^{\mathbf{X}} выборки \mathbf{X} соответствует гипотезе H_1, но она неверно отвергнута статистическим критерием, то есть f(\mathbf{x}) = H_0.

Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно. [1][2]

  Верная гипотеза
 H_0   H_1 
Результат
 применения 
критерия
 H_0  H_0 верно принята  H_0 неверно принята 
(Ошибка второго рода)
 H_1   H_0 неверно отвергнута 
(Ошибка первого рода)
H_0 верно отвергнута

О смысле ошибок первого и второго рода[править | править исходный текст]

Как видно из вышеприведённого определения, ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы H_0 и H_1, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H_0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H_1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (т.е. показывают наличие заболевания у пациента), когда на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным.

В других областях обычно используют словосочетания со схожим смыслом, например, «ложное срабатывание», «ложная тревога» и т.п. В информационных технологиях часто используют английский термин false positive без перевода.

Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть: чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительно (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу.

Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).

Слово «отрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда на самом деле пациент страдает этим заболеванием. Такой результат называется ложноотрицательным.

В других областях обычно используют словосочетания со схожим смыслом, например, «пропуск события», и т.п. В информационных технологиях часто используют английский термин false negative без перевода.

Степень чувствительности системы защиты должна представлять собой компромисс между вероятностью ошибок первого и второго рода. Где именно находится точка баланса, зависит от оценки рисков обоих видов ошибок.

Вероятности ошибок (уровень значимости и мощность)[править | править исходный текст]

Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой \alpha (отсюда название \alpha-errors).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой \beta (отсюда \beta-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле (1-\beta). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Примеры использования[править | править исходный текст]

Радиолокация[править | править исходный текст]

В задаче радиолокационного обнаружения воздушных целей, прежде всего, в системе ПВО ошибки первого и второго рода, с формулировкой «пропуск цели» и «ложная тревога» являются одним из основных элементов как теории, так и практики построения радиолокационных станций. Вероятно, это первый пример последовательного применения статистических методов в целой технической области.

Компьютеры[править | править исходный текст]

Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения.

Компьютерная безопасность[править | править исходный текст]

Наличие уязвимостей в вычислительных системах приводит к тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. компьютерная безопасность). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации:

  • когда авторизованные пользователи классифицируются как нарушители (ошибки первого рода)
  • когда нарушители классифицируются как авторизованные пользователи (ошибки второго рода)

Фильтрация спама[править | править исходный текст]

Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).

Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма.

Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.

Вредоносное программное обеспечение[править | править исходный текст]

Понятие ошибки первого рода также используется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус. Неверное обнаружение может быть вызвано особенностями эвристики, либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с антитроянскими и антишпионскими программами.

Поиск в компьютерных базах данных[править | править исходный текст]

При поиске в базе данных к ошибкам второго рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска, когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.

Большинство ложных срабатываний обусловлены сложностью естественных языков, многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального словаря. Однако это решение относительно дорогое, поскольку подобный словарь и разметка документов (индексирование) должны создаваться экспертом.

Оптическое распознавание текстов (OCR)[править | править исходный текст]

Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода. Программное обеспечение оптического распознавания текстов может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек, которые используемый алгоритм расценил как «a».

Досмотр пассажиров и багажа[править | править исходный текст]

Ошибки первого рода регулярно встречаются каждый день в компьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т.п. (см. обнаружение взрывчатых веществ, металлодетекторы).

Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как правонарушителя) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.

Биометрия[править | править исходный текст]

Ошибки первого и второго рода являются большой проблемой в системах биометрического сканирования, использующих распознавание радужной оболочки или сетчатки глаза, черт лица и т.д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т.п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении.[3]

Массовая медицинская диагностика (скрининг)[править | править исходный текст]

В медицинской практике есть существенное различие между скринингом и тестированием:

  • Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, мазок Папаниколау).
  • Тестирование подразумевает гораздо более дорогие, зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые, в основном, применяются для подтверждения предполагаемого диагноза.

К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на оксифенилкетонурию и гипотиреоз, помимо других врождённых аномалий. Несмотря на высокий уровень ошибок первого рода, эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии.[4]

Простые анализы крови, используемые для скрининга потенциальных доноров на ВИЧ и гепатит, имеют существенный уровень ошибок первого рода; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди (маммография). В США уровень ошибок первого рода в маммограммах достигает 15%, это самый высокий показатель в мире.[5] Самый низкий уровень наблюдается в Нидерландах, 1%.[6]

Медицинское тестирование[править | править исходный текст]

Ошибки второго рода являются существенной проблемой в медицинском тестировании. Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам кардиотестирования при выявлении коронарного атеросклероза, хотя известно, что кардиотестирование выявляет только те затруднения кровотока в коронарной артерии, которые вызваны стенозом.

Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70%, то многие отрицательные результаты теста окажутся ложными. (См. Теорему Байеса).

Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными.[7]

Исследования сверхъестественных явлений[править | править исходный текст]

Термин ошибка первого рода был взят на вооружение исследователями в области паранормальных явлений и привидений для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте ошибка первого рода — это какое-либо несостоятельное «медиасвидетельство» (изображение, видеозапись, аудиозапись и т.д.), которое имеет обычное объяснение.[8]

См. также[править | править исходный текст]

  • Статистическая значимость
  • Атака второго рода
  • Случаи ложного срабатывания систем предупреждения о ракетном нападении
  • Receiver_operating_characteristic

Примечания[править | править исходный текст]

  1. ГОСТ Р 50779.10-2000. «Статистические методы. Вероятность и основы статистики. Термины и определения.». Стр. 26
  2. Valerie J. Easton, John H. McColl. Statistics Glossary: Hypothesis Testing.
  3. Данный пример как раз характеризует случай, когда классификация ошибок будет зависеть от назначения системы: если биометрическое сканирование используется для допуска сотрудников (нулевая гипотеза: «проходящий сканирование человек действительно является сотрудником»), то ошибочное отождествление будет ошибкой второго рода, а «неузнавание» — ошибкой первого рода; если же сканирование используется для опознания преступников (нулевая гипотеза: «проходящий сканирование человек не является преступником»), то ошибочное отождествление будет ошибкой первого рода, а «неузнавание» — ошибкой второго рода.
  4. Относительно скрининга новорожденных, последние исследования показали, что количество ошибок первого рода в 12 раз больше, чем количество верных обнаружений (Gambrill, 2006. [1])
  5. Одним из последствий такого высокого уровня ошибок первого рода в США является то, что за произвольный 10-летний период половина обследуемых американских женщин получают как минимум одну ложноположительную маммограмму. Такие ошибочные маммограммы обходятся дорого, приводя к ежегодным расходам в 100 миллионов долларов на последующее (ненужное) лечение. Кроме того, они вызывают излишнюю тревогу у женщин. В результате высокого уровня подобных ошибок первого рода в США, примерно у 90-95% женщин, получивших хотя бы раз в жизни положительную маммограмму, на самом деле заболевание отсутствует.
  6. Наиболее низкие уровни этих ошибок наблюдаются в северной Европе, где маммографические плёнки считываются дважды, и для дополнительного тестирования устанавливается повышенное пороговое значение (высокий порог снижает статистическую эффективность теста).
  7. Вероятность того, что выдаваемый тестом результат окажется ошибкой первого рода, может быть вычислена при помощи Теоремы Байеса.
  8. На некоторых сайтах приведены примеры ошибок первого рода, например: Атлантическое Сообщество Паранормальных явлений (The Atlantic Paranormal Society, TAPS) (недоступная ссылка с 13-05-2013 (398 дней)) и Морстаунская организация по Исследованию Привидений (Moorestown Ghost Research) (недоступная ссылка с 13-05-2013 (398 дней) — история).

Ошибки первого и второго рода

Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость её
проверки. Поскольку проверку производят
статистическими методами, её называют
статистической. В итоге статистической
проверки гипотезы в двух случаях может
быть принято неправильное решение, т.
е. могут быть допущены ошибки двух родов.

Ошибка первого
рода состоит в том, что будет отвергнута
правильная гипотеза.

Ошибка второго
рода состоит в том, что будет принята
неправильная гипотеза.

Подчеркнём, что
последствия этих ошибок могут оказаться
весьма различными. Например, если
отвергнуто правильное решение «продолжать
строительство жилого дома», то эта
ошибка первого рода повлечёт материальный
ущерб: если же принято неправильное
решение «продолжать строительство»,
несмотря на опасность обвала стройки,
то эта ошибка второго рода может повлечь
гибель людей. Можно привести примеры,
когда ошибка первого рода влечёт более
тяжёлые последствия, чем ошибка второго
рода.

Замечание 1.
Правильное решение может быть принято
также в двух случаях:

  1. гипотеза принимается,
    причём и в действительности она
    правильная;

  2. гипотеза отвергается,
    причём и в действительности она неверна.

Замечание 2.
Вероятность совершить ошибку первого
рода принято обозначать через
;
её называют уровнем значимости. Наиболее
часто уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости, равный 0,05, то это
означает, что в пяти случаях из ста
имеется риск допустить ошибку первого
рода (отвергнуть правильную гипотезу).

Статистический
критерий проверки нулевой гипотезы.
Наблюдаемое значение критерия

Для проверки
нулевой гипотезы используют специально
подобранную случайную величину, точное
или приближённое распределение которой
известно. Обозначим эту величину в целях
общности через
.

Статистическим
критерием

(или просто критерием) называют случайную
величину
,
которая служит для проверки нулевой
гипотезы.

Например, если
проверяют гипотезу о равенстве дисперсий
двух нормальных генеральных совокупностей,
то в качестве критерия
принимают отношение исправленных
выборочных дисперсий:.

Эта величина
случайная, потому что в различных опытах
дисперсии принимают различные, наперёд
неизвестные значения, и распределена
по закону Фишера – Снедекора.

Для проверки
гипотезы по данным выборок вычисляют
частные значения входящих в критерий
величин и таким образом получают частное
(наблюдаемое) значение критерия.

Наблюдаемым
значением
называют значение критерия, вычисленное
по выборкам. Например, если по двум
выборкам найдены исправленные выборочные
дисперсиии,
то наблюдаемое значение критерия.

Критическая
область. Область принятия гипотезы.
Критические точки

После выбора
определённого критерия множество всех
его возможных значений разбивают на
два непересекающихся подмножества:
одно из них содержит значения критерия,
при которых нулевая гипотеза отвергается,
а другая – при которых она принимается.

Критической
областью называют совокупность значений
критерия, при которых нулевую гипотезу
отвергают.

Областью принятия
гипотезы (областью допустимых значений)
называют совокупность значений критерия,
при которых гипотезу принимают.

Основной принцип
проверки статистических гипотез можно
сформулировать так: если наблюдаемое
значение критерия принадлежит критической
области – гипотезу отвергают, если
наблюдаемое значение критерия принадлежит
области принятия гипотезы – гипотезу
принимают.

Поскольку критерий
— одномерная случайная величина, все её
возможные значения принадлежат некоторому
интервалу. Поэтому критическая область
и область принятия гипотезы также
являются интервалами и, следовательно,
существуют точки, которые их разделяют.

Критическими
точками (границами)
называют точки, отделяющие критическую
область от области принятия гипотезы.

Различают
одностороннюю (правостороннюю или
левостороннюю) и двустороннюю критические
области.

Правосторонней
называют критическую область, определяемую
неравенством
>,
где— положительное число.

Левосторонней
называют критическую область, определяемую
неравенством
<,
где— отрицательное число.

Односторонней
называют правостороннюю или левостороннюю
критическую область.

Двусторонней
называют критическую область, определяемую
неравенствами
где.

В частности, если
критические точки симметричны относительно
нуля, двусторонняя критическая область
определяется неравенствами ( в
предположении, что
>0):

,
или равносильным неравенством
.

Отыскание
правосторонней критической области

Как найти критическую
область? Обоснованный ответ на этот
вопрос требует привлечения довольно
сложной теории. Ограничимся её элементами.
Для определённости начнём с нахождения
правосторонней критической области,
которая определяется неравенством
>,
где>0.
Видим, что для отыскания правосторонней
критической области достаточно найти
критическую точку. Следовательно,
возникает новый вопрос: как её найти?

Для её нахождения
задаются достаточной малой вероятностью
– уровнем значимости
.
Затем ищут критическую точку,
исходя из требования, чтобы при условии
справедливости нулевой гипотезы
вероятность того, критерийпримет значение, большее,
была равна принятому уровню значимости:
Р(>)=.

Для каждого критерия
имеются соответствующие таблицы, по
которым и находят критическую точку,
удовлетворяющую этому требованию.

Замечание 1.
Когда
критическая точка уже найдена, вычисляют
по данным выборок наблюдаемое значение
критерия и, если окажется, что
>,
то нулевую гипотезу отвергают; если же<,
то нет оснований, чтобы отвергнуть
нулевую гипотезу.

Пояснение. Почему
правосторонняя критическая область
была определена, исходя из требования,
чтобы при справедливости нулевой
гипотезы выполнялось соотношение

Р(>)=?
(*)

Поскольку вероятность
события
>мала (— малая вероятность), такое событие при
справедливости нулевой гипотезы, в силу
принципа практической невозможности
маловероятных событий, в единичном
испытании не должно наступить. Если всё
же оно произошло, т.е. наблюдаемое
значение критерия оказалось больше,
то это можно объяснить тем, что нулевая
гипотеза ложна и, следовательно, должна
быть отвергнута. Таким образом, требование
(*) определяет такие значения критерия,
при которых нулевая гипотеза отвергается,
а они и составляют правостороннюю
критическую область.

Замечание 2.
Наблюдаемое значение критерия может
оказаться большим
не потому, что нулевая гипотеза ложна,
а по другим причинам (малый объём выборки,
недостатки методики эксперимента и
др.). В этом случае, отвергнув правильную
нулевую гипотезу, совершают ошибку
первого рода. Вероятность этой ошибки
равна уровню значимости.
Итак, пользуясь требованием (*), мы с
вероятностьюрискуем совершить ошибку первого рода.

Замечание 3. Пусть
нулевая гипотеза принята; ошибочно
думать, что тем самым она доказана.
Действительно, известно, что один пример,
подтверждающий справедливость некоторого
общего утверждения, ещё не доказывает
его. Поэтому более правильно говорить,
«данные наблюдений согласуются с нулевой
гипотезой и, следовательно, не дают
оснований её отвергнуть».

На практике для
большей уверенности принятия гипотезы
её проверяют другими способами или
повторяют эксперимент, увеличив объём
выборки.

Отвергают гипотезу
более категорично, чем принимают.
Действительно, известно, что достаточно
привести один пример, противоречащий
некоторому общему утверждению, чтобы
это утверждение отвергнуть. Если
оказалось, что наблюдаемое значение
критерия принадлежит критической
области, то этот факт и служит примером,
противоречащим нулевой гипотезе, что
позволяет её отклонить.

Отыскание
левосторонней и двусторонней критических
областей***

Отыскание
левосторонней и двусторонней критических
областей сводится (так же, как и для
правосторонней) к нахождению соответствующих
критических точек. Левосторонняя
критическая область определяется
неравенством
<(<0).
Критическую точку находят, исходя из
требования, чтобы при справедливости
нулевой гипотезы вероятность того, что
критерий примет значение, меньшее,
была равна принятому уровню значимости:
Р(<)=.

Двусторонняя
критическая область определяется
неравенствами
Критические
точки находят, исходя из требования,
чтобы при справедливости нулевой
гипотезы сумма вероятностей того, что
критерий примет значение, меньшееили большее,
была равна принятому уровню значимости:

.
(*)

Ясно, что критические
точки могут быть выбраны бесчисленным
множеством способов. Если же распределение
критерия симметрично относительно нуля
и имеются основания (например, для
увеличения мощности) выбрать симметричные
относительно нуля точки (-
(>0),
то

Учитывая (*), получим
.

Это соотношение
и служит для отыскания критических
точек двусторонней критической области.
Критические точки находят по соответствующим
таблицам.

Дополнительные
сведения о выборе критической области.
Мощность критерия

Мы строили
критическую область, исходя из требования,
чтобы вероятность попадания в неё
критерия была равна
при условии, что нулевая гипотеза
справедлива. Оказывается целесообразным
ввести в рассмотрение вероятность
попадания критерия в критическую область
при условии, что нулевая гипотеза неверна
и, следовательно, справедлива конкурирующая.

Мощностью критерия
называют вероятность попадания критерия
в критическую область при условии, что
справедлива конкурирующая гипотеза.
Другими словами, мощность критерия есть
вероятность того, что нулевая гипотеза
будет отвергнута, если верна конкурирующая
гипотеза.

Пусть для проверки
гипотезы принят определённый уровень
значимости и выборка имеет фиксированный
объём. Остаётся произвол в выборе
критической области. Покажем, что её
целесообразно построить так, чтобы
мощность критерия была максимальной.
Предварительно убедимся, что если
вероятность ошибки второго рода (принять
неправильную гипотезу) равна
,
то мощность равна 1-.
Действительно, если— вероятность ошибки второго рода, т.е.
события «принята нулевая гипотеза,
причём справедливо конкурирующая», то
мощность критерия равна 1 —.

Пусть мощность 1

возрастает; следовательно, уменьшается
вероятностьсовершить ошибку второго рода. Таким
образом, чем мощность больше, тем
вероятность ошибки второго рода меньше.

Итак, если уровень
значимости уже выбран, то критическую
область следует строить так, чтобы
мощность критерия была максимальной.
Выполнение этого требования должно
обеспечить минимальную ошибку второго
рода, что, конечно, желательно.

Замечание 1.
Поскольку вероятность события «ошибка
второго рода допущена» равна
,
то вероятность противоположного события
«ошибка второго рода не допущена» равна
1 —,
т.е. мощности критерия. Отсюда следует,
что мощность критерия есть вероятность
того, что не будет допущена ошибка
второго рода.

Замечание 2. Ясно,
что чем меньше вероятности ошибок
первого и второго рода, тем критическая
область «лучше». Однако при заданном
объёме выборки уменьшить одновременно
иневозможно; если уменьшить,
тобудет возрастать. Например, если принять=0,
то будут приниматься все гипотезы, в
том числе и неправильные, т.е. возрастает
вероятностьошибки второго рода.

Как же выбрать
наиболее целесообразно? Ответ на этот
вопрос зависит от «тяжести последствий»
ошибок для каждой конкретной задачи.
Например, если ошибка первого рода
повлечёт большие потери, а второго рода
– малые, то следует принять возможно
меньшее.

Если
уже выбрано, то, пользуясь теоремой Ю.
Неймана и Э.Пирсона, можно построить
критическую область, для которойбудет минимальным и, следовательно,
мощность критерия максимальной.

Замечание 3.
Единственный способ одновременного
уменьшения вероятностей ошибок первого
и второго рода состоит в увеличении
объёма выборок.

Соседние файлы в папке Лекции 2 семестр

  • #
  • #
  • #
  • #

Мы познакомимся с элементами статистической проверки гипотез, т. е. с процедурой построения некоторых правил, позволяющих по результатам эксперимента высказывать суждение о природе явлений, обусловливающих изучаемый эксперимент.

Статистическая проверка гипотез

Пусть высказано некоторое предположение (гипотеза) Н о природе явления, которое мы наблюдаем в эксперименте. Чтобы проверить справедливость Н, следует либо изучить всю совокупность следствий, которые должны иметь место, если гипотеза Н верна, либо указать некоторое событие S, невозможное при верной гипотезе Н. В первом случае (если все эти следствия наблюдаются) гипотезу Н можно считать верной, во втором (если событие наблюдается в эксперименте) гипотеза Н неверна. Это самая простая ситуация и рассуждения здесь проводятся по следующей схеме: гипотеза Н эквивалентна полному набору следствий, поэтому

Статистическая проверка гипотез

или: если Н верна, то событие S невозможно; поэтому

Статистическая проверка гипотез

Проверка гипотез подобного рода не представляет для исследователя никаких затруднений, но на практике такая ситуация встречается редко.

Первая сложность, с которой приходится сталкиваться, состоит в том, что в большинстве действительно интересных для исследователя случаев проверить все следствия из гипотезы Н не представляется возможным и приходится ограничиваться проверкой только части следствий. Но заключение о справедливости гипотезы, сделанное по неполному набору следствий из нее по схеме (1), уже не является достоверным. В то же время заключение о несправедливости гипотезы Н, сделанное по схеме (2), все еще достоверно. Поэтому, находясь в указанной выше ситуации, можно только отвергнуть гипотезу по схеме (2), наблюдая событие S, невозможное в случае ее справедливости, но нельзя гипотезу подтвердить. Можно лишь высказать суждение о правдоподобии гипотезы. Причем степень нашей уверенности в справедливости высказанного суждения будет тем выше, чем больший набор следствий из гипотезы Н удалось проверить.

Классическим примером подобных гипотез являются естественно-научные гипотезы, которые всегда подвергаются указанной выше проверке и либо становятся теориями (если нет противоречащих рассматриваемой гипотезе явлений), либо отвергаются (если таковые есть).

Хотелось бы подчеркнуть вот какое обстоятельство: до тех пор, пока не обнаружено явление, противоречащее проверяемой гипотезе, ее отвергнуть нельзя. Поэтому если мы располагаем двумя гипотезами, одинаково подтверждающимися в эксперименте, то у нас нет никаких оснований для предпочтения одной из гипотез другой, и в то же время мы не в состоянии (поскольку располагаем неполным набором следствий) утверждать, что обе гипотезы справедливы!

Дальнейшее усложнение связано с тем, что в основе изучаемых нами явлений могут лежать случайные воздействия, и мало того, что мы располагаем неполным набором следствий и не можем достоверно подтвердить гипотезу, мы теперь не можем ее и отвергнуть, ибо довольно трудно указать событие S, невозможное в случае справедливости гипотезы Н. Можно лишь указать событие S такое, которое происходит редко, если гипотеза Н верна. Схема (2) в этом случае уже неприменима, ибо из того, что гипотеза Н верна, мы можем сделать заключение лишь о редкости события S, но не о его возможности. Поэтому наблюдение события S в эксперименте гипотезу Н не опровергает.

Рассмотрим пример. Пусть производится контроль качества партии продукции, причем характер продукции таков, что сплошной контроль невозможен или нерационален Для решения вопроса о качестве всей партии, содержащей N изделий, отберем n < N изделий и тщательно исследуем их качество. Пусть в выборке оказалось Статистическая проверка гипотез дефектных изделий. Какое заключение можно сделать по этой выборке о качестве всей исследуемой партии? Видимо, единственное, что можно сказать наверняка, так это то, что исследуемая партия содержит не менее, чем Статистическая проверка гипотез, и не более, чем Статистическая проверка гипотез, дефектных изделий. Результаты произведенного исследования выборки, однако, позволяют надеяться, что доля дефектных изделий в партии близка к Статистическая проверка гипотез. Утверждать же это наверняка нельзя, ибо совершенно ясно, что и любое другое допустимое (не меньшее Статистическая проверка гипотез и не большее Статистическая проверка гипотез) количество дефектных изделий в партии может привести к полученной нами выборке. Пусть гипотеза Статистическая проверка гипотез состоит в том, что исследуемая партия содержит долю Статистическая проверка гипотез дефектных изделий. Для проверки этой гипотезы рассмотрим еще одну выборку из совокупности в N изделий. Пусть доля дефектных изделий в этой выборке оказалась равной Статистическая проверка гипотез. Если разница между Статистическая проверка гипотез не очень велика, то отсюда еще не следует, что проверяемая гипотеза верна, хотя можно ожидать, что в большинстве случаев так оно и будет. Точно также, значительное различие Статистическая проверка гипотез не обусловливает неверности гипотезы Статистическая проверка гипотез, но приводит нас к мысли, что гипотеза Статистическая проверка гипотез все же малоправдоподобна. Это связано с тем, что при верной гипотезе Статистическая проверка гипотез мы должны чаще получать выборки, доля дефектных изделий в которых близка к qo, нежели выборки, доля дефектных изделий в которых значительно отличается от .Статистическая проверка гипотез

Возвращаясь к обсуждению общей ситуации, несколько видоизменим правила (1) и (2) принятия решений, предварительно формализовав рассматриваемые понятия.

Пусть в эксперименте наблюдается случайная величина Статистическая проверка гипотез (или несколько случайных величин Статистическая проверка гипотез).

Любой непротиворечивый набор суждений о законе распределения случайной величины Статистическая проверка гипотез (или совокупности Статистическая проверка гипотез) будем называть гипотезой. Гипотезу будем называть простой, если она однозначно указывает закон распределения случайной величины Статистическая проверка гипотез (или совокупности Статистическая проверка гипотез)- В противном случае гипотеза называется сложной.

Пример:

Пусть случайная величина Статистическая проверка гипотез — количество дефектных изделий в партии. Гипотеза Статистическая проверка гипотез состоит в том, что доля дефектных изделий в партии равна Статистическая проверка гипотез. Это простая гипотеза. Примером сложной гипотезы в данной ситуации может служить гипотеза о том, что доля брака в партии не превышает Статистическая проверка гипотез.

Пример:

По выборке Статистическая проверка гипотез получена оценка неизвестного математического ожидания случайной величины Статистическая проверка гипотез. Гипотеза о равенстве Статистическая проверка гипотез некоторому числу а является простой.

Пример:

Пусть в эксперименте рассматривается пара независимых случайных величин. Гипотеза о равенстве их математических ожиданий является сложной.

Пример:

Пусть закон распределения случайной величины Статистическая проверка гипотез известен, но неизвестны значения параметров, его определяющих, Статистическая проверка гипотез. Тогда гипотеза Статистическая проверка гипотез о том, что параметры принимают известные значения

Статистическая проверка гипотез

является простой. Гипотеза же, указывающая только возможную область значений параметров

Статистическая проверка гипотез

будет сложной.

Критерием проверки гипотезы будем называть любое правило, позволяющее по выборке делать заключение о справедливости или несправедливости проверяемой гипотезы.

Как уже было отмечено выше, мы не можем построить логически безупречного критерия в случае гипотезы, связанной с законом распределения случайной величины. Поступать в этом случае будем следующим образом: пусть М — множество событий наблюдаемого эксперимента. Выделим в М множество S событий, происходящих редко в случае справедливости проверяемой гипотезы Н. Пусть Статистическая проверка гипотез — результат эксперимента. Тогда

Статистическая проверка гипотез

Множество S называется критическим множеством критерия. Здесь возможны четыре случая.

I. Гипотеза Н верна и признана согласно критерию правдоподобной.
II. Гипотеза Н неверна и признана согласно критерию неправдоподобной.
III. Гипотеза Н верна, но согласно критерию признана неправдоподобной.
IV. Гипотеза Н неверна, но согласно критерию признана правдоподобной.

Случаи III и IV описывают ошибки, возможные при проверке гипотезы статистическими критериями. Они носят название соответственно ошибок 1 и 2-го рода.

Хотелось бы, чтобы применяемые нами критерии как можно чаще приводили к случаям I или II и как можно реже к ошибкам (случаи III и IV). Поэтому критическое множество S обычно выбирают так, чтобы при правильной гипотезе Н вероятность получения в эксперименте исходаСтатистическая проверка гипотез была как можно меньше. Эта вероятность (вероятность ошибки 1-го рода) носит название уровня значимости критерия. Как следует из вышеизложенного, мы не можем указать множество S, соответствующее нулевому уровню значимости. Поэтому будем довольствоваться критическими множествами, соответствующими хоть и не нулевому, но довольно близкому к нулю уровню значимости. Обычно в качестве уровня значимости берут значения 0,05; 0,01; 0,001, хотя в зависимости от конкретной ситуации могут употребляться и другие близкие к нулю вероятности.

Для того чтобы свести к минимуму ошибки 2-го рода, следует, наряду с исследуемой гипотезой Н, рассмотреть конкурирующие с ней гипотезы. Действительно, пусть верна какая-либо из альтернативных простых гипотез Статистическая проверка гипотез. Тогда неверная гипотеза Н будет признана верной в том случае, когда множество событий, имеющих место в случае справедливости гипотезы Статистическая проверка гипотез, пересекается с множеством событий, частых в случае справедливости проверяемой гипотезы Н.

Вероятность принять гипотезу Н в случае, когда верна гипотеза Статистическая проверка гипотез, называется оперативной характеристикой критерия относительно гипотезы Статистическая проверка гипотез.

Вероятность отвергнуть гипотезу Н в случае, когда верна гипотеза Статистическая проверка гипотез, называется мощностью критерия относительно гипотезы Статистическая проверка гипотез.

Таким образом, выбор критической области S диктуется минимизацией вероятностей ошибок первого и второго рода. Если удается построить критическую область так, что мощность критерия принимает наибольшее значение для данной простой альтернативной гипотезы Статистическая проверка гипотез, то соответствующий критерий называется наиболее мощным при данном уровне значимости.

Равномерно наиболее мощным критерием называется критерий, наиболее мощный относительно всех допустимых альтернативных гипотез при данном уровне значимости.

Рассмотрим пример, иллюстрирующий введенные выше понятия.

Пусть Статистическая проверка гипотез — случайная величина, описывающая число появлений герба в n последовательных независимых испытаниях, вероятность появления герба в каждом из которых неизменна. Гипотеза, которую мы хотим проверить, состоит в том, что вероятность появления герба в отдельном испытании равна 0,5. Альтернативные гипотезы Статистическая проверка гипотез — вероятность выпадения герба в отдельном испытании равна Статистическая проверка гипотез. Легко видеть, что как проверяемая, так и альтернативные гипотезы являются простыми. Для проверки гипотезы Статистическая проверка гипотез проведено n экспериментов и отмечено, что герб появился Статистическая проверка гипотез раз. Множество М исходов эксперимента состоит из всех возможных наборов Статистическая проверка гипотез, описывающих число появления герба Статистическая проверка гипотез Критическое множество S, определяющее критерий, будет подмножеством множества исходов М. Зададим уровень значимости Статистическая проверка гипотез и определим S так, что если гипотеза Статистическая проверка гипотез верна, то

Статистическая проверка гипотез

или

Статистическая проверка гипотез

Суммирование ведется здесь по всем k таким, что значение Статистическая проверка гипотез принадлежит критическому множеству S. Легко видеть, что при заданном уровне значимости можно указать довольно много различных множеств S, удовлетворяющих соотношению (3). Каждое из этих множеств будет определять критерий для проверки нашей гипотезы. Возьмем, к примеру, в качестве S множество Статистическая проверка гипотез, где Статистическая проверка гипотез однозначно определяется из соотношения

Статистическая проверка гипотез

как наибольшее из возможных Статистическая проверка гипотез. Критерий Статистическая проверка гипотез, построенный на основании Статистическая проверка гипотез, будет признавать гипотезу Статистическая проверка гипотез неверной, если Статистическая проверка гипотез, и верной в противном случае. Ясно, что это должен быть не очень хороший критерий. Критерий Статистическая проверка гипотез построим на основании множества Статистическая проверка гипотез. Этот критерий будет признавать гипотезу Статистическая проверка гипотез верной, если Статистическая проверка гипотез, и неверной в противном случае. Он уже кажется лучшим, чем Статистическая проверка гипотез.

Действительно, рассмотрим мощности критериев Статистическая проверка гипотез относительно какой-либо из альтернативных гипотез Статистическая проверка гипотезПусть верна гипотеза Статистическая проверка гипотез. Мощность критерия Статистическая проверка гипотезотносительно гипотезы Статистическая проверка гипотез

Статистическая проверка гипотез

Для критерия Статистическая проверка гипотез

Статистическая проверка гипотез

В этом равенстве Статистическая проверка гипотез определяется из соотношения

Статистическая проверка гипотез

как наибольшее из возможных Статистическая проверка гипотез.

Зависимость мощности (5) и (6) критериев Статистическая проверка гипотез соответственно от альтернативной гипотезы Статистическая проверка гипотез схематично представлена на рис. 1. Отсюда легко усмотреть, что критерий Статистическая проверка гипотез будет неплох, если альтернативная гипотеза Статистическая проверка гипотез такова, что р < 0,5. Если же р > 0,5, то согласно критерию Статистическая проверка гипотез мы будем почти всегда проверяемую гипотезу Статистическая проверка гипотез считать верной. Впрочем, это было очевидно с самого начала: выбранная нами критическая область Статистическая проверка гипотез совершенно нечувствительна к отклонениям числа появившихся в эксперименте гербов В сторону чисел, больших 0,5n. Критерий же Статистическая проверка гипотез строился на основании отклонений как в ту, так и в другую сторону от наиболее вероятного при верной гипотезе Статистическая проверка гипотезчисла 0,5n и потому оказался чувствительным ко всем альтернативным гипотезам. Однако и он не лишен недостатков. Его чувствительность падает с приближением р к 0,5 (см. рис. 1). Но (ясно из постановки задачи) это вполне естественно, и ничего лучшего в данной ситуации предложить нельзя.

Легко проверить, что критерий Статистическая проверка гипотез будет более мощным, чем критерий Статистическая проверка гипотез, для любой альтернативной гипотезы Статистическая проверка гипотез такой, что р > 0,5.

В дальнейшем мы не будем останавливаться на исследовании мощности того или иного критерия, ибо сама постановка задачи обычно определяет, какая из возможных при данном уровне значимости критических областей S будет наилучшей.

В заключение отметим важное обстоятельство: проверяемая нами при помощи статистических критериев гипотеза не подлежит вероятностной оценке. Поскольку она описывает некоторые объективные стороны исследуемого процесса, то может быть либо верной, либо неверной, и высказывание типа: «Гипотеза верна с вероятностью такой-то» бессмысленно. В связи с этим полезно иметь в виду, что уровень значимости критерия, мощность критерия, оперативная характеристика критерия не являются условными вероятностями описанных выше событий «при условии, что верна гипотеза Статистическая проверка гипотез». Эти характеристики критерия описывают вероятность встретить в эксперименте ту или иную выборку в предположении, что истинная природа явлений, наблюдаемых нами, описывается гипотезой Статистическая проверка гипотез или какой-нибудь альтернативной гипотезой Н. Мы не можем говорить об условной вероятности Статистическая проверка гипотез, так как не в состоянии осмысленно приписать какую-либо вероятность гипотезе Статистическая проверка гипотез.

Параметрические гипотезы.
Лемма Неймана—Пирсона

Пусть случайная величина Статистическая проверка гипотез имеет распределение Статистическая проверка гипотез, известное с точностью до вектора параметров Статистическая проверка гипотез. Назовем гипотезу Статистическая проверка гипотез параметрической, если она состоит в предположении, что вектор р принимает значения из некоторого множества W,

Статистическая проверка гипотез

При построении критериев проверки параметрических гипотез важную роль играет принцип отношения правдоподобия, позволяющий в подавляющем большинстве важных для приложений ситуаций строить критические области критериев.

Для упрощения дальнейшего изложения будем считать Статистическая проверка гипотез непрерывной с плотностью Статистическая проверка гипотез.

Напомним, что процедура проверки подобной гипотезы против альтернативы Н: Статистическая проверка гипотез требует указания критического множества S такого, что если Статистическая проверка гипотез — гипотеза принимается, в противном же случае — отвергается.

Положим

Статистическая проверка гипотез

где Статистическая проверка гипотез— функция правдоподобия выборки Статистическая проверка гипотез, и рассмотрим отношение

Статистическая проверка гипотез

которое называется отношением правдоподобия. Ясно, что Статистическая проверка гипотезнаходится в пределах от 0 до 1. Далее заметим, что при фиксированной_выборке Статистическая проверка гипотез предпочтительными являются те значения параметров Статистическая проверка гипотез, для которых Статистическая проверка гипотез больше; поэтому чем ближе величина Статистическая проверка гипотез к единице, тем «более правдоподобно», что гипотеза Статистическая проверка гипотез верна, если же значения Статистическая проверка гипотез — маленькие, то скорее всего гипотеза Статистическая проверка гипотез неверна, так как более «весомой» представляется одна из альтернативных гипотез, значительно увеличивающая знаменатель отношения правдоподобия в сравнении с числителем.

Приведенные выше интуитивные соображения удается аккуратно формализовать в виде следующего утверждения.

Теорема:

Принцип отношения правдоподобия Неймана—Пирсона. Для любого 0 < а < 1 критическое множество S критерия проверки параметрической гипотезы Статистическая проверка гипотез с уровнем значимости а дается соотношением

Статистическая проверка гипотез

где Статистическая проверка гипотез — постоянная, определяемая условием

Статистическая проверка гипотез

Можно доказать, что так построенный критерий обладает определенными оптимальными свойствами, в частности, если гипотеза Статистическая проверка гипотез — простая и строится критерий проверки против гипотезы Н — также простой, то критерий отношения правдоподобия оказывается равномерно наиболее мощным критерием.

В качестве примера использования сформулированного выше принципа рассмотрим процедуры построения критического множества S для проверки различных, часто встречающихся гипотез.

Проверка гипотезы о равенстве математического ожидания нормальной случайной величины числу Статистическая проверка гипотез

Постановка задачи. В эксперименте наблюдается случайная величина Статистическая проверка гипотез, распределенная по нормальному закону с неизвестными параметрами Статистическая проверка гипотез Получена выборка из распределения случайной величины Статистическая проверка гипотез. Требуется выяснить, справедлива ли гипотеза о равенстве Статистическая проверка гипотез

Вектор параметров Статистическая проверка гипотез в этой задаче двумерен

Статистическая проверка гипотез

нулевая гипотеза Статистическая проверка гипотез состоит в том, что Статистическая проверка гипотез — полупрямая на полуплоскости Статистическая проверка гипотез. Функция правдоподобия выборки Статистическая проверка гипотез будет иметь вид

Статистическая проверка гипотез

Для Статистическая проверка гипотез и Статистическая проверка гипотез получим соответственно

Статистическая проверка гипотез

Несложные выкладки по нахождению экстремумов (11) приводят к формулам

Статистическая проверка гипотез

Отношение правдоподобия (7) принимает вид

Статистическая проверка гипотез

Заметим, что так как

Статистическая проверка гипотез

то

Статистическая проверка гипотез

Отсюда, разделив последнее соотношение на его левую часть, получим

Статистическая проверка гипотез

где Статистическая проверка гипотез — случайная величина, имеющая распределение Стьюдента с n — 1 степенью свободы.
Поэтому критическая область (8) в рассматриваемом случае имеет вид

Статистическая проверка гипотез

где значение Статистическая проверка гипотез дается соотношением

Статистическая проверка гипотез

Мы пришли к хорошо известному критерию Стьюдента проверки рассматриваемой гипотезы, который, впрочем, легко мог бы быть получен прямыми рассуждениями, не связанными с использованием, отношения правдоподобия.

Действительно, по выборке, полученной в результате эксперимента, мы можем построить точечную оценку Статистическая проверка гипотез неизвестного параметра Статистическая проверка гипотез

Статистическая проверка гипотез

Результаты предыдущей главы позволяют утверждать, что оценка (13) похожа на истинное значение Статистическая проверка гипотез, но не обязательно с ним совпадает. Поэтому из того, что Статистическая проверка гипотез мы еще не можем сделать заключения, что Статистическая проверка гипотез Если вспомнить аналогию с пещерным человеком Платона, то Статистическая проверка гипотез — это наблюдаемая нами «тень» Статистическая проверка гипотез и мы должны, сравнивая «тень» и известное нам число а, высказать суждение, верна гипотеза Статистическая проверка гипотезили неверна.

Если принять, что гипотеза Статистическая проверка гипотез верна, то величина

Статистическая проверка гипотез

оказывается распределенной по закону Стьюдента с n — 1 степенью свободы.

Зададим некоторый уровень значимости а и определим критическое множество S как множество таких отклонений Статистическая проверка гипотез от а, вероятность встретить которые в эксперименте (в случае справедливости гипотезы Статистическая проверка гипотез) не превышает Статистическая проверка гипотез. Здесь заложена следующая идея: если гипотеза верна, то отклонения чаще будут малыми, а реже большими. Поэтому малыми считаем те отклонения, которые встречаются часто!

Статистическая проверка гипотез

Поскольку

Статистическая проверка гипотез

где Статистическая проверка гипотез — функция распределения Стьюдента с n — 1 степенью свободы, то пограничная величина Статистическая проверка гипотез может быть определена из соотношения

Статистическая проверка гипотез

Для проверки гипотезы по конкретному набору Статистическая проверка гипотез, полученному в эксперименте, вычислим оценку Статистическая проверка гипотез и найдем отклонение Статистическая проверка гипотез Если оно попадает во множество S, то гипотеза о равенстве Статистическая проверка гипотезсчитается несогласующейся с экспериментом и отвергается на уровне значимости а, в противном случае гипотеза принимается на уровне значимости а.

Пример:

Станок настроен на выпуск деталей размером d. Размеры деталей, изготавливаемых на данном станке, не будут в точности равны d, а будут иметь размер

Статистическая проверка гипотез

где Статистическая проверка гипотез можно считать нормальной случайной величиной с математическим ожиданием 0 и некоторой дисперсией Статистическая проверка гипотез. Деталь считается бездефектной, если отклонение ее размера от заданного заключены в пределах

Статистическая проверка гипотез

Таким образом, хорошо настроенный станок будет в среднем давать долю q бездефектных изделий, где

Статистическая проверка гипотез

В процессе изготовления деталей станок может разладиться — центр настройки d может сместиться, при этом размер детали будет выражаться соотношением

Статистическая проверка гипотез

Здесь а — смещение центра настройки станка. Отклонение Статистическая проверка гипотез размера детали от заданного будет в этом случае случайной величиной с нормальным законом распределения и с математическим ожиданием Статистическая проверка гипотез. Доля бездефектных изделий, изготовленных на станке, при этом уменьшится

Статистическая проверка гипотез

т. е. увеличится доля брака (рис. 2). Важная задача —
своевременно установить момент смещения центра настройки.

Статистическая проверка гипотез

Берется некоторое количество деталей (обычно 3-4) и находится средний размер, а затем отклонение этого среднего размера от предполагаемого d. Сравнив полученное отклонение с границами для отклонения, которые должны иметь место в случае, если смещение центра настройки не произошло, можно выяснить, справедлива ли гипотеза о смещении центра настройки станка.

Проверка гипотезы о равенстве дисперсии нормальной случайной величины Статистическая проверка гипотез числу Статистическая проверка гипотез

Постановка задачи. В эксперименте наблюдается случайная величина Статистическая проверка гипотез, распределенная по нормальному закону с параметрами Статистическая проверка гипотез, которые неизвестны. Получена выборка из распределения случайной величины Статистическая проверка гипотез. Требуется выяснить, равно ли число Статистическая проверка гипотезнекоторому наперед заданному числу b?

Аналогично тому, как это было сделано в предыдущем пункте, можно показать, что принцип отношения правдоподобия приводит к критическому множеству S, определяемому статистикой

Статистическая проверка гипотез

где Статистическая проверка гипотез — несмещенная оценка дисперсии. А именно, если гипотеза Статистическая проверка гипотез справедлива, то величина (15) имеет распределения Статистическая проверка гипотез с n — 1 степенью свободы и для у значимости а критическое множество S может быть определено как множество таких значений Статистическая проверка гипотез, вероятность встретить которые в эксперименте не больше а,

Статистическая проверка гипотез

В силу несимметричности распределения Статистическая проверка гипотез мы используем для построения области S несимметричные доверительные границы.

Получаем

Статистическая проверка гипотез

Здесь Статистическая проверка гипотез — функция Статистическая проверка гипотез -распределения с n — 1 степенью свободы.

Решая уравнения

Статистическая проверка гипотез

находим числа Статистическая проверка гипотез такие, что

Статистическая проверка гипотез

откуда критическое множество S имеет вид

Статистическая проверка гипотез

Для проверки гипотезы по конкретному набору Статистическая проверка гипотез значений случайной величины Статистическая проверка гипотез, полученному в эксперименте, вычислим оценку Статистическая проверка гипотез дисперсии. Если полученное число попадает в критическую область S, гипотеза отвергается на уровне значимости а, в противном случае гипотеза принимается.

Пример:

Станок настроен на выпуск деталей некоторого наперед заданного размера d, причем точность работы станка описывается дисперсией Статистическая проверка гипотез случайной величины Статистическая проверка гипотез — отклонения размера Статистическая проверка гипотез детали от заданного среднего d:

Статистическая проверка гипотез

где Статистическая проверка гипотез — нормально распределенная случайная величина с Статистическая проверка гипотез. Деталь считается бездефектной, если отклонение Статистическая проверка гипотез удовлетворяет условию

Статистическая проверка гипотез

Если смещение центра настройки не наблюдается, то в среднем мы будем получать долю q бездефектных изделий

Статистическая проверка гипотез

В процессе изготовления деталей точность может снизиться, т. е. может увеличиться дисперсия наблюдаемых отклонений Статистическая проверка гипотез от заданного размера d. Если смещение центра при этом не произошло, то отклонение будет описываться случайной величиной Статистическая проверка гипотез, дисперсия которой Статистическая проверка гипотез. Доля дефектных изделий при этом увеличится (рис. 3).

Статистическая проверка гипотез

Для того чтобы вовремя обнаружить разладки станка, возьмем некоторое количество деталей (3-4) и найдем оценку Статистическая проверка гипотез. Сравнив полученную оценку с границами, которые должны иметь место, если разладки нет, мы сможем выяснить справедливость наших подозрений относительно снижения точности изготовления деталей на данном станке.

В заключение этого пункта отметим, что при проверке гипотезы о равенстве дисперсии Статистическая проверка гипотез пары независимых нормальных случайных величин по независимым выборкам объемов n и m соответственно, принцип отношения правдоподобия в качестве статистики для построения критической области дает величину Z — отношение Фишера—Снедекера

Статистическая проверка гипотез

имеющую, в случае справедливости гипотезы о равенстве дисперсий, распределение Фишера с (n — 1, m — 1) степенями свободы.

Зададим уровень значимости а и определим критическое множество S как множество таких значений Статистическая проверка гипотез, вероятность встретить которые в эксперименте не больше а,

Статистическая проверка гипотез

Напомним, что распределение Фишера асимметрично и при n > 2 унимодально.

Если наша гипотеза справедлива, то в большинстве случаев отношение Статистическая проверка гипотез должно быть близко к единице, т. е. отношение (17) должно быть близко к (n — 1)/(m — 1). Учитывая асимметрию, выберем числа Статистическая проверка гипотез так, чтобы

Статистическая проверка гипотез

Если Статистическая проверка гипотез — функция распределения случайной величины Z, то числа Статистическая проверка гипотез являются решениями уравнений

Статистическая проверка гипотез

Для проверки гипотезы по выборкам, полученным в результате эксперимента, находим отношение Статистическая проверка гипотез. Если оно попадает в критическую область, гипотеза о равенстве дисперсий считается несогласующейся с опытными данными на уровне значимости а, в противном случае гипотеза принимается.

Проверка гипотезы о равенстве средних нормальных случайных величин

Постановка задачи. Рассмотрим пару независимых нормально распределенных случайных величин Статистическая проверка гипотез с параметрами Статистическая проверка гипотез соответственно. В результате эксперимента получены две независимые выборки из распределения случайных величин Статистическая проверка гипотез

Статистическая проверка гипотез

Требуется выяснить, совпадают ли математические ожидания Статистическая проверка гипотез

1. По выборкам строим оценки Статистическая проверка гипотез дисперсий Статистическая проверка гипотези, как это указано в предыдущем пункте, проверяем гипотезу о равенстве Статистическая проверка гипотез. Пусть гипотеза о равенстве дисперсии согласуется с экспериментальными данными: Статистическая проверка гипотез

Лемма:

Случайная величина

Статистическая проверка гипотез

является несмещенной оценкой общей неизвестной дисперсии случайных величин Статистическая проверка гипотез

◄ Заметим, что

Статистическая проверка гипотез

Поэтому

Статистическая проверка гипотез

Но Статистическая проверка гипотез — несмещенные оценки Статистическая проверка гипотез, а потому Статистическая проверка гипотез, откуда

Статистическая проверка гипотез

что и требовалось доказать. ►

Теорема:

Случайная величин

Статистическая проверка гипотез

имеет распределение Стьюдента с n + m- 2 степенями свободы, если только верна гипотеза о том, что Статистическая проверка гипотез

Здесь Статистическая проверка гипотез — несмещенная оценка (18) общей дисперсии Статистическая проверка гипотез

◄ Поскольку выборки Статистическая проверка гипотез из нормальных законов, то разность Статистическая проверка гипотез распределена по нормальному закону с Статистическая проверка гипотез (в случае верной гипотезы Статистическая проверка гипотез). Поэтому величина Статистическая проверка гипотез распределена нормально с параметрами 0 и Статистическая проверка гипотез Случайные величины Статистическая проверка гипотез независят от Статистическая проверка гипотез и распределены каждая по закону Статистическая проверка гипотез с n — 1 и m — 1 степенями свободы соответственно. Поэтому величина

Статистическая проверка гипотез

имеет распределение Статистическая проверка гипотез с n + m -2 степенями свободы и не зависит от Статистическая проверка гипотез. Отсюда отношение

Статистическая проверка гипотез

имеет распределение Стьюдента с n + m — 2 степенями свободы. ►

Как и выше, можно показать, что принцип отношения правдоподобия приводит к критической области, определяемой статистикой (19) (для фиксированного уровня значимости а область S определяется из условия

Статистическая проверка гипотез

2. Если же гипотеза о равенстве дисперсий Статистическая проверка гипотезне подтверждается, то случайную величину, описывающую отклонения х и у, закон распределения которой не зависит от параметров распределения случайных величин Статистическая проверка гипотез, построить уже не удается.

Проверку гипотезы о равенстве средних двух независимых нормальных совокупностей проводят в этом случае следующим образом: рассматривается случайная величина

Статистическая проверка гипотез

которая имеет нормальное распределение с параметрами 0 и 1. Если п и т достаточно велики, то замена точных значений Статистическая проверка гипотез их оценками Статистическая проверка гипотез не очень нарушает распределения случайной величины и можно считать, что случайная величина

Статистическая проверка гипотез

имеет приблизительно нормальное распределение с параметрами 0 и 1 (при верной гипотезе Статистическая проверка гипотез. Этим удобно воспользоваться при построении критической области S, описывающей редкие отклонения Статистическая проверка гипотез

Критерии согласия

Другую важную группу гипотез образуют непараметрические гипотезы, из которых мы остановимся здесь на гипотезах о законах распределения.

Очень часто из тех или иных соображений может быть высказана гипотеза о характере закона распределения наблюдаемой случайной величины. К примеру, если случайная величина Статистическая проверка гипотез обусловлена суммарным воздействием большого числа приблизительно одинаковых факторов, то, руководствуясь центральной предельной теоремой, разумно предполагать, что Статистическая проверка гипотез имеет нормальное распределение.

Как мы уже знаем, представление об истинной функции распределения случайной величины Статистическая проверка гипотез можно составить по эмпирической функции распределения. Поэтому если высказана гипотеза о том, что истинная функция распределения случайной величины Статистическая проверка гипотез есть Статистическая проверка гипотез, то естественно изучать поведение отклонения предполагаемой функции Статистическая проверка гипотез от наблюдаемой эмпирической Статистическая проверка гипотез. Если отклонение Статистическая проверка гипотез от Статистическая проверка гипотез окажется значительным, то Статистическая проверка гипотез не может быть функцией распределения случайной величины Статистическая проверка гипотез. Причем значительными будем считать такие отклонения, вероятность наблюдения которых в эксперименте при верной гипотезе очень мала.

Построим случайную величину Статистическая проверка гипотез, описывающую различие между гипотетической функцией Статистическая проверка гипотез и наблюдаемой Статистическая проверка гипотез. Задавая уровень значимости Статистическая проверка гипотез, определяем число Статистическая проверка гипотез такое, что

Статистическая проверка гипотез

Тогда гипотеза о виде закона распределения считается согласующейся с экспериментальными данными, если Статистическая проверка гипотез. В противном случае гипотеза считается плохо согласующейся с экспериментом и отвергается на уровне значимости Статистическая проверка гипотез.

Выбирая ту ил и иную меру Статистическая проверка гипотез отличия Статистическая проверка гипотез, будем получать для проверки изучаемой гипотезы различные критерии.

Критерий Колмогорова-Смирнова

Пусть в качестве d взята величина

Статистическая проверка гипотез

Теорема Гливенко—Кантелли утверждает, что Статистическая проверка гипотез, если объем выборки неограниченно возрастает. Рассмотрим

Статистическая проверка гипотез

Имеет место следующая

Теорема:

Пусть гипотетическая функция Статистическая проверка гипотез непрерывна. Тогда функция распределения случайной величины Статистическая проверка гипотез не зависит от видаСтатистическая проверка гипотез.

◄ Пусть Статистическая проверка гипотез — выборка объема п из закона распределения случайной величины Статистическая проверка гипотез. Рассмотрим набор случайных величин Статистическая проверка гипотез

Лемма:

Если Статистическая проверка гипотез — случайная величина с законом распределения Статистическая проверка гипотез, причем Статистическая проверка гипотез непрерывна, то случайная величина Статистическая проверка гипотез равномерно распределена на [0,1], т. е.

Статистическая проверка гипотез

Статистическая проверка гипотез

Так как функция распределения Статистическая проверка гипотез монотонно возрастает и Статистическая проверка гипотез, то

Статистическая проверка гипотез

На отрезке Статистическая проверка гипотез

Статистическая проверка гипотез

На основании леммы, набор случайных величин Статистическая проверка гипотез образует выборку объема n из равномерного распределения. Пусть Статистическая проверка гипотез — функция равномерного распределения, Статистическая проверка гипотез — эмпирическая функция равномерного распределения, построенная на выборке Статистическая проверка гипотез

Статистическая проверка гипотез

и х таково, что Статистическая проверка гипотез. Рассмотрим

Статистическая проверка гипотез

Вследствие монотонности функции Статистическая проверка гипотез

Статистическая проверка гипотез

Учитывая это, получаем

Статистическая проверка гипотез

Отсюда

Статистическая проверка гипотез

Но левая часть последнего соотношения не зависит от вида функции Статистическая проверка гипотез, следовательно, не зависит и правая. ►

Таким образом, введенная нами мера Статистическая проверка гипотез, описывающая различия эмпирической и гипотетической функций распределения, не зависит от вида гипотетической функции распределения, а определяется лишь объемом выборки n.

Если объем выборки неограниченно возрастает, то функция распределения случайной величины Статистическая проверка гипотез мало отличается от некоторой фиксированной функции. А именно, имеет место теорема Колмогорова

Статистическая проверка гипотез

Независимость предельного распределения Статистическая проверка гипотезот гипотетической функции Статистическая проверка гипотез позволяет построить критерий для проверки гипотезы о согласованности эмпирических данных с гипотетическим распределением.

Пусть гипотеза верна, тогда (если n достаточно велико, Статистическая проверка гипотез)

Статистическая проверка гипотез

Задавая уровень значимости а, определяем Статистическая проверка гипотез из уравнения

Статистическая проверка гипотез

В соответствии с общей установкой гипотезу считаем согласующейся с эмпирическими данными, если полученное по конкретным данным значение

Статистическая проверка гипотез

не превышает Статистическая проверка гипотез, в противном случае гипотезу отвергаем.

Критерий X2 Пирсона

Критерий Статистическая проверка гипотез Пирсона

Одним из наиболее часто употребляемых на практике критериев согласия является критерий Статистическая проверка гипотез Пирсона. В качестве меры несогласованности гипотетического и эмпирического распределений рассмотрим следующую величину.

Пусть Статистическая проверка гипотез — выборка из закона распределения случайной величины Статистическая проверка гипотез.

Разобьем числовую прямую на s разрядов и найдем частоту Статистическая проверка гипотез попадания случайной величины Статистическая проверка гипотез в і-й разряд разбиения Статистическая проверка гипотез

Статистическая проверка гипотез

Пусть Статистическая проверка гипотез — гипотетическое распределение случайной величины Статистическая проверка гипотез. Тогда вероятность того, что случайная величина Статистическая проверка гипотез принимает значения в i-м разряде разбиения Статистическая проверка гипотез, равна

Статистическая проверка гипотез

Здесь Статистическая проверка гипотез — концы i-го разряда разбиения Статистическая проверка гипотез (рис. 4).

Статистическая проверка гипотез

Рассмотрим величину

Статистическая проверка гипотез

Если наша гипотеза верна, то отклонения Статистическая проверка гипотез в большинстве случаев должны быть малы, поэтому в качестве меры различия эмпирического и теоретического законов распределения целесообразно взять величину (21).

Имеет место теорема о независимости предельного распределения для Статистическая проверка гипотез от вида гипотетической функции распределения.

Теорема Пирсона

Статистическая проверка гипотез

Здесь Статистическая проверка гипотезраспределение с s — 1 степенью свободы.

При достаточно большом числе наблюдений эта теорема может быть использована для построения критерия согласия. Пусть а — уровень значимости. Решив уравнение

Статистическая проверка гипотез

найдем пограничное значение Статистическая проверка гипотезсравнивая с которым экспериментальное значение (21), будем делать заключение о согласованности или несогласованности нашей гипотезы с экспериментом.

Остановимся на чувствительности критерия Статистическая проверка гипотезнесколько подробнее. Пусть наша гипотеза ошибочна и истинные значения Статистическая проверка гипотез вероятностей попадания в i-й разряд разбиения отличны от найденных нами вероятностей Статистическая проверка гипотез. Тогда случайная величина (21) уже не будет следовать распределению Статистическая проверка гипотез с s — 1 степенью свободы и для математического ожидания величины (21) получим

Статистическая проверка гипотез

Но Статистическая проверка гипотез, и поскольку хотя бы одна из вероятностей Статистическая проверка гипотез Поэтому

Статистическая проверка гипотез

Тем самым, с ростом объема выборки указанная величина неограниченно возрастает, если только наша гипотеза неверна. Таким образом, на практике, если число наблюдений достаточно велико, неверная гипотеза будет отвергнута.

Практические рекомендации к применению критерия Пирсона следующие: желательно, чтобы разбиения на разряды проводились таким образом, чтобы Статистическая проверка гипотез. Число разрядов разбиения при этом должно быть не менее 7 — 8. Если же эмпирических данных очень много (скажем, число разрядов превышает s — 30), то целесообразно
2 воспользоваться для построения критерия не распределением Статистическая проверка гипотез, а предельным для него при Статистическая проверка гипотез нормальным.

Сравнивая критерий Колмогорова и критерий Пирсона, заметим, что первый более точен и приводит на практике к менее громоздким вычислениям, чем второй.

Следует, однако, отметить, что в практической ситуации гипотетический закон распределения Статистическая проверка гипотез может быть точно указан крайне редко. Более реальной является такая ситуация, когда можно лишь высказать предположение о целой группе гипотетических законов Статистическая проверка гипотез, каждый из которых определяется фиксированным набором параметров Статистическая проверка гипотез. В этом случае гипотеза выглядит следующим образом:

распределение случайной величины Статистическая проверка гипотез описывается законом Статистическая проверка гипотез при некотором наборе параметров Статистическая проверка гипотез

При замене неизвестных параметров их оценками, найденными по выборке, следует иметь в виду, что для одного и того же параметра можно указать очень много различных оценок. Поэтому, заменяя истинные значения неизвестных параметров их оценками, мы портим предельные распределения рассмотренных нами мер отличия — основные теоремы предыдущего и настоящего параграфов становятся неверными.

В этом случае описанными критериями пользоваться, вообще говоря, уже нельзя. Так, например, применение в указанной ситуации критерия Колмогорова приводит к тому, что чем больше параметров мы оценили по выборке, тем лучшее согласие он покажет даже при неверной гипотезе, тогда как критерий Пирсона допускает некоторое видоизменение таким образом, что он остается пригодным и в описанной выше ситуации.

Теорема:

Пусть Статистическая проверка гипотез— оценки максимального правдоподобия или оценки, полученные по методу моментов. Тогда случайная величина (21) имеет распределение Статистическая проверка гипотез с s — k — 1 степенями свободы, т. е. число степеней свободы распределения случайной величины (21) уменьшается на число оцениваемых по выборке параметров.

Пример:

Пусть в эксперименте получена выборка объема nиз распределения случайной величины Статистическая проверка гипотез

Статистическая проверка гипотез

и высказана гипотеза о нормальности распределения случайной величины Статистическая проверка гипотез

Применим критерий Статистическая проверка гипотез. Производя разбиение числовой прямой на разряды, вычисляем значения эмпирических частот Статистическая проверка гипотез попадания случайной величины Статистическая проверка гипотез в i-й разряд разбиения. Для подсчета теоретических вероятностей попадания в г-й разряд разбиения необходимо знать параметры m и Статистическая проверка гипотез нормального распределения. Заменим их оценками

Статистическая проверка гипотез

и вычислим вероятности

Статистическая проверка гипотез

Находим

Статистическая проверка гипотез

Для того чтобы определить пограничное значение Статистическая проверка гипотез заметим, что число степеней свободы случайной величины Статистическая проверка гипотез равно s — 3, так как мы оценили по выборке два неизвестных параметра распределения: m и Статистическая проверка гипотез. Поэтому Статистическая проверка гипотез ищем из уравнения

Статистическая проверка гипотез

Здесь Статистическая проверка гипотез-распределение с s — 3 степенями свободы.

В заключение отметим, что если по выборке оценено значительное количество неизвестных параметров, то тем самым гипотетическая функция распределения искусственно приближена к эмпирической и критерий в этих случаях дает неоправданно высокую степень согласованности. Поэтому, если число степеней свободы оказывается малым (3-4 и меньше), то для повышения уровня достоверности допускаемых нами выводов наряду с критерием Статистическая проверка гипотез следует использовать и другие критерии и оценки.

Дополнение к проверке статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Проверка статистических гипотез

Смотрите также:

  • Решение задач по статистике

Если вам потребуется заказать статистику вы всегда можете написать мне в whatsapp.

Проверка статистических гипотез

В этой главе мы обратимся ко второму направлению в математической статистике — проверке статистических гипотез. Сначала определим понятия статистической гипотезы и критерия, а затем рассмотрим некоторые наиболее часто встречающиеся на практике гипотезы и приведены критерии для их проверки.

Статистическая гипотеза и критерий

Снова предположим, что в результате эксперимента мы получили выборку Проверка статистических гипотез из генеральной совокупности с неизвестной теоретической функцией распределения F(x). Статистической гипотезой (в дальнейшем для краткости вместо «статистическая гипотеза» будем говорить просто «гипотеза») назовем любое предположение о виде теоретической функции распределения F(x). Так, в схеме Бернулли гипотезами будут являться следующие предположения: «вероятность успеха равна 1/2»; «вероятность успеха больше 1/3»; «вероятность успеха заключена между 0,4 и 0,7» и т. д. С нормальным распределением можно связать такие гипотезы: «теоретическая функция распределения нормальна со средним, равным нулю»; «теоретическая функция распределения нормальна с дисперсией, не превосходящей квадрата среднего значения», и т.д. Все перечисленные выше гипотезы являются параметрическими, поскольку в них предположения делаются относительно области изменения неизвестного параметра (или нескольких параметров) для заданных параметрических семейств функций распределения. Примерами непараметрических гипотез служат высказывания: «теоретическая функция распределения является нормальной»; «теоретическая функция распределения не является нормальной»; «теоретическая функция распределения имеет положительное математическое ожидание». Гипотезы будем обозначать буквой Н, снабжая при необходимости индексами.

Всюду в дальнейшем будем предполагать, что у нас имеются две непересекающиеся гипотезы: Проверка статистических гипотез Гипотезу Проверка статистических гипотез будем называть основной, а гипотезу Проверка статистических гипотезконкурирующей или альтернативной. Выбор названия условен, но, как правило, удобно основной гипотезой Проверка статистических гипотез называть более конкретное предположение о виде теоретической функции распределения или предположение, влекущее за собой более важные практические последствия. Задача проверки статистических гипотез состоит в том, чтобы на основе выборки Проверка статистических гипотез принять (т. е. считать справедливой) либо основную гипотезу Проверка статистических гипотез либо конкурирующую гипотезу Проверка статистических гипотез

Различают простую и сложную гипотезы. Простая гипотеза полностью определяет теоретическую функцию распределения F(x). Так, простыми будут гипотезы: «вероятность успеха в схеме Бернулли равна 1/2»; «теоретическая функция распределения является нормальной с нулевым средним и единичной дисперсией». Гипотеза, не являющаяся простой, носит название сложной. Примерами сложных гипотез будут: «вероятность успеха в схеме Бернулли заключена между 0,4 и 0,7»; «теоретическая функция распределения является нормальной с нулевым средним, но произвольной дисперсией»; «теоретическая функция распределения не является нормальной». Сложная гипотеза среди возможных функций распределения выделяет некоторое подмножество Проверка статистических гипотез содержащее более одной функции распределения. При этом если мы имеем сложную параметрическую гипотезу, то заранее в силу каких-то уже проверенных соображений ограничиваемся рассмотрением некоторого параметрического семейства функций распределения Проверка статистических гипотез с неизвестным параметром (или параметрами) Проверка статистических гипотез сама гипотеза выделяет среди всех функций распределения данного семейства те, у которых Проверка статистических гипотез в свою очередь — некоторое подмножество области Проверка статистических гипотез всех возможных значений неизвестного параметра Проверка статистических гипотез

Статистическим критерием (или просто критерием) называется правило, позволяющее, основываясь только на выборке Проверка статистических гипотезпринять либо основную гипотезу Проверка статистических гипотез либо конкурирующую Проверка статистических гипотезКаждый критерий характеризуется допустимой областью Проверка статистических гипотез т. е. областью в n-мерном пространстве Проверка статистических гипотез попадание в которую выборки Проверка статистических гипотез влечет за собой принятие основной гипотезы Проверка статистических гипотез Дополнительная область Проверка статистических гипотез попадание в которую выборки Проверка статистических гипотез приводит к принятию конкурирующей гипотезы Проверка статистических гипотез носит название критической области.

Предположим теперь, что у нас имеется две гипотезы Проверка статистических гипотез т.е. в множестве всех функций распределения выделены два непересекающихся подмножества Проверка статистических гипотез при этом основная гипотеза Проверка статистических гипотез заключается в том, что выборка Проверка статистических гипотез произведена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей подмножеству Проверка статистических гипотез а конкурирующая гипотеза Проверка статистических гипотез — с теоретической функцией распределения F(x), принадлежащей подмножеству Проверка статистических гипотез Пусть также задан критерий для проверки этих гипотез, т.е. разбиение n-мерного пространства Проверка статистических гипотез на две области: допустимую Проверка статистических гипотез и критическую Проверка статистических гипотез В силу случайности выборки какой бы критерий мы не взяли, обязательно возможно появление ошибок двух родов.

Ошибка первого рода возникает тогда, когда имеет место основная гипотеза Проверка статистических гипотез но выборка Проверка статистических гипотез попадает в критическую область Проверка статистических гипотез и мы принимаем конкурирующую гипотезу Проверка статистических гипотез Вероятность а ошибки первого рода называется уровнем значимости критерия и определяется формулой

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном, где Р(х) или р(х) — ряд распределения или плотность распределения наблюдаемой случайной величины X при условии справедливости основной гипотезы Проверка статистических гипотез а суммирование или интегрирование, как обычно, ведется по всем точкам Проверка статистических гипотез (в дискретном случае каждое Проверка статистических гипотез может принимать только значения Проверка статистических гипотез В случае, когда гипотеза Проверка статистических гипотез сложная, уровень значимости Проверка статистических гипотез естественно, будет зависеть от реальной теоретической функции распределения F(x) из подмножества Проверка статистических гипотез Кроме того, если гипотеза Проверка статистических гипотез параметрическая, т. е. подмножество Проверка статистических гипотез представляет собой параметрическое семейство функций распределения Проверка статистических гипотез зависящее от неизвестного параметра Проверка статистических гипотез с областью изменения Проверка статистических гипотез являющейся подобластью области Проверка статистических гипотез всех возможных значений параметра Проверка статистических гипотез то будем вместо записи Проверка статистических гипотез употреблять запись Проверка статистических гипотез предполагая при этом, что Проверка статистических гипотез

Пусть теперь справедлива конкурирующая гипотеза Проверка статистических гипотез но выборка Проверка статистических гипотез попала в допустимую область Проверка статистических гипотез и мы приняли основную гипотезу Проверка статистических гипотез Тогда мы имеем дело с ошибкой второго рода. Вероятность ошибки второго рода Проверка статистических гипотез носит название оперативной характеристики критерия. Однако обычно в статистике предпочитают иметь дело с мощностью критерия Проверка статистических гипотез (т. е. вероятностью того, что при справедливой конкурирующей гипотезе Проверка статистических гипотез мы ее примем), задаваемой формулой

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном, где так же, как и при определении уровня значимости, суммирование или интегрирование ведется по всем Проверка статистических гипотез однако ряд распределения Р(x) или плотность распределения р(x) берутся при условии справедливости конкурирующей гипотезы Проверка статистических гипотез Разумеется, в случае сложной гипотезы Проверка статистических гипотез мощность Проверка статистических гипотез будет зависеть от реального теоретического распределения F(x) из подмножества Проверка статистических гипотез Если конкурирующая гипотеза Проверка статистических гипотез параметрическая, то вместо Проверка статистических гипотез будем писать Проверка статистических гипотез считая при этом, что Проверка статистических гипотез где Проверка статистических гипотез — область изменения неизвестного параметра Проверка статистических гипотез при условии справедливости гипотезы Проверка статистических гипотез

Таким образом, и уровень значимости, и мощность критерия задаются одной и той же формулой и их различие состоит в том, что уровень значимости Проверка статистических гипотез определяется только для теоретических функций распределения F(x), принадлежащих подмножеству Проверка статистических гипотез а мощность Проверка статистических гипотез — подмножеству Проверка статистических гипотез Впрочем, иногда эти два понятия объединяют в одно, называя функцией мощности критерия Проверка статистических гипотез величину, равную уровню значимости Проверка статистических гипотез при Проверка статистических гипотез и мощности Проверка статистических гипотез Отметим, что уровень значимости и оперативная характеристика критерия могут иметь совершенно разную физическую природу. Так, пропуск партии бракованных изделий влечет за собой, как правило, более тяжелые последствия, чем выбраковка партии годных изделий.

Естественное желание каждого исследователя состоит в предоставлении ему такого критерия, который позволил бы как можно реже делать ошибки и первого и второго рода (в идеале — совсем не ошибаться!), т. е. минимизировал бы и уровень значимости Проверка статистических гипотез и оперативную характеристику Проверка статистических гипотез Но такое желание невыполнимо, поскольку требование делать реже ошибку первого рода влечет за собой увеличение допустимой области Проверка статистических гипотез в то время как требование реже делать ошибку второго рода предписывает увеличить критическую область Проверка статистических гипотез Поэтому обычно поступают следующим образом: фиксируют уровень значимости (как более важный с практической точки зрения) и среди нескольких критериев, имеющих заданный уровень значимости, предпочтение отдают более мощному.

Остановимся на этом несколько подробнее. Назовем размером критерия Проверка статистических гипотез максимальное значение вероятности ошибки первого рода при использовании данного критерия, т.е.

Проверка статистических гипотез

Отметим, что в дальнейшем нам довольно часто будут встречаться критерии, уровень значимости Проверка статистических гипотез которых не зависит от конкретной функции распределения F(x) (из подмножества Проверка статистических гипотез и, естественно, совпадает с размером критерия Проверка статистических гипотез В таких случаях мы будем говорить просто об уровне значимости, не связывая его с конкретным распределением F(x), а в скобках писать «размер».

Равномерно наиболее мощным критерием заданного размера Проверка статистических гипотез будем называть критерий, имеющий среди всех критериев размера Проверка статистических гипотез наибольшую мощность Проверка статистических гипотез при любом распределении Проверка статистических гипотез Равномерно наиболее мощные критерии существуют в крайне редких случаях, наиболее известными из которых являются случай простых гипотез Проверка статистических гипотез и случай односторонней и двусторонней параметрических гипотез для некоторых однопараметрических семейств Проверка статистических гипотез (см. параграфы 2 и 3 данной главы).

В ряде задач, хотя и не существует равномерно наиболее мощный критерий, можно построить равномерно наиболее мощный несмещенный критерий. Критерий называется несмещенным, если его уровень значимости ни в коем случае не превосходит мощности, т.е. Проверка статистических гипотез для любых Проверка статистических гипотез (невыполнение требования несмещенности ведет к парадоксальной ситуации: в некоторых случаях мы будем чаще браковать партии годных изделий, чем негодных). Критерий, имеющий при любом Проверка статистических гипотез наибольшую мощность среди всех несмещенных критериев размера Проверка статистических гипотез носит название равномерно наиболее мощного несмещенного критерия размера Проверка статистических гипотез Естественно, равномерно наиболее мощный критерий является также равномерно наиболее мощным несмещенным, что вытекает из сравнения его с тривиальным рандомизированным критерием (о понятии рандомизированного критерия см. ниже), который независимо от выборки Проверка статистических гипотез предписывает случайным образом с вероятностью Проверка статистических гипотез принять конкурирующую гипотезу Проверка статистических гипотез очевидно, и мощность, и уровень значимости такого критерия тождественно равны Проверка статистических гипотез

Наконец, еще один класс критериев представляют так называемые инвариантные критерии. Критерий называется инвариантным относительно группы преобразований G выборки Проверка статистических гипотез если он не зависит от преобразований из этой группы. В частности, от любых критериев, проверяющих гипотезы о теоретической функции распределения F(x), разумно потребовать инвариантность относительно всех перестановок элементов выборки Проверка статистических гипотез иначе сам критерий зависел бы от того, в каком порядке проводились наблюдения. Обычно группа преобразований G естественным образом определяется рассматриваемыми гипотезами Проверка статистических гипотез и поэтому говорят просто об инвариантных критериях. Критерий, имеющий при заданном размере Проверка статистических гипотез наибольшую мощность среди всех инвариантных критериев, называется равномерно наиболее мощным инвариантным критерием. Поскольку понятие инвариантного критерия является сложным, мы в дальнейшем в основном тексте не будем его использовать, отсылая читателя к специальной литературе (например, [11, 12]), хотя это понятие и прояснило бы смысл построения некоторых критериев.

В общем случае, когда не существует ни равномерно наиболее мощного, ни даже равномерно наиболее мощного несмещенного или равномерно наиболее мощного инвариантного критерия, критерии обычно строят, опираясь на интуитивные соображения разумности. К таким соображениям относятся: простота и наглядность критерия, независимость уровня значимости критерия от вида теоретической функции распределения, асимптотическая эффективность критерия и т.д.

Как правило, критерии строят, основываясь на статистике критерия. Пусть Проверка статистических гипотез — произвольная (одномерная) статистика. Тогда неравенство Проверка статистических гипотез определяет критерий, критическая область которого Проверка статистических гипотез состоит из всех точек Проверка статистических гипотез п-мерного пространства Проверка статистических гипотез для которых

Проверка статистических гипотез

Заставляя критическое значение пробегать все числа от Проверка статистических гипотез получим семейство критериев, имеющих различные уровни значимости и мощности. Теперь, если, например, мы хотим получить критерий заданного размера Проверка статистических гипотез то должны выбрать такое значение С, которое давало бы нам критерий требуемого размера Проверка статистических гипотез Обычно критерии строят таким образом, чтобы статистика S при условии справедливости основной гипотезы Проверка статистических гипотез имела (хотя бы асимптотически при Проверка статистических гипотез одно из распределений, описанных в параграфе 4 гл. 1. Тогда критическое значение С определяется как Проверка статистических гипотез-квантиль соответствующего распределения. Разумеется, как уже говорилось ранее, статистика S должна по возможности обеспечивать меньший уровень значимости и большую мощность построенного на ее основе критерия.

В заключение этого параграфа скажем несколько слов о рандомизированных критериях. Рандомизированные критерии возникают (обычно в случае дискретной наблюдаемой случайной величины X) тогда, когда критерий, определяемый неравенством

Проверка статистических гипотез

имеет размер больше требуемого, а неравенством

Проверка статистических гипотез

— уже меньше требуемого. В этом случае наряду с критической Проверка статистических гипотез и допустимой Проверка статистических гипотез областями вводят область рандомизации Проверка статистических гипотез при попадании выборки Проверка статистических гипотез в область Проверка статистических гипотез производят дополнительное испытание типа подбрасывания несимметричной монеты и по его исходу принимают либо основную гипотезу Проверка статистических гипотез либо конкурирующую Проверка статистических гипотез Здесь в основном тексте мы не будем рассматривать рандомизированные критерии.

Простые гипотезы

Изучение статистических критериев начнем со случая двух простых гипотез. Пусть выборка Проверка статистических гипотез произведена из генеральной совокупности с теоретической функцией распределения F(x), относительно которой имеются две простые гипотезы: основная Проверка статистических гипотез и конкурирующая Проверка статистических гипотез — известные функции распределения. Поскольку гипотезы Проверка статистических гипотез простые, уровень значимости и мощность каждого критерия для проверки этих гипотез будут представлять собой два числа: Проверка статистических гипотез Оказывается, в данном случае существует наиболее мощный критерий (при двух простых гипотезах вместо «равномерно наиболее мощный критерий» говорят просто «наиболее мощный критерий»), т.е. критерий, имеющий при заданном уровне значимости а наибольшую мощность Проверка статистических гипотез Этот критерий называется критерием отношения правдоподобия и описывается следующим образом.

Введем статистику

Проверка статистических гипотез

где

Проверка статистических гипотез

в случае дискретной наблюдаемой величины X и

Проверка статистических гипотез

в случае непрерывной X представляет собой функцию правдоподобия при условии справедливости гипотезы Проверка статистических гипотез а

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном — ту же самую функцию правдоподобия, но при условии справедливости гипотезы Проверка статистических гипотез Статистика Проверка статистических гипотез носит название отношения правдоподобия и является отношением вероятностей (или плотностей распределения) получить выборку Проверка статистических гипотез при условиях справедливости гипотез Проверка статистических гипотез Естественно предположить (и это подтверждается леммой Неймана-Пирсона, которую мы докажем ниже), что чем больше отношение правдоподобия, тем большее предпочтение мы должны оказать гипотезе Проверка статистических гипотез Таким образом, критическая область Проверка статистических гипотез критерия отношения правдоподобия состоит из всех тех точек Проверка статистических гипотез для которых Проверка статистических гипотез больше критического значения С. Критерий отношения правдоподобия подобен рачительной хозяйке, которая всегда на имеющиеся деньги старается купить как можно больше товаров.

Теорема:

Лемма Неймана-Пирсона. Среди всех критериев заданного уровня значимости а, проверяющих две простые гипотезы Проверка статистических гипотез критерий отношения правдоподобия является наиболее мощным.

Доказательство:

Пусть критерий отношения правдоподобия уровня значимости а для проверки Проверка статистических гипотез задается критической областью Проверка статистических гипотез Рассмотрим любой другой критерий того же уровня значимости для проверки тех же гипотез и обозначим через Проверка статистических гипотез его критическую область. Тогда при попадании выборки Проверка статистических гипотез в область Проверка статистических гипотез мы должны принять гипотезу Проверка статистических гипотез по критерию отношения правдоподобия, но отвергнуть в соответствии со вторым критерием, а при попадании в область Проверка статистических гипотез — наоборот, отвергнуть по критерию отношения правдоподобия, но принять в соответствии со вторым критерием (рис. 1). Тогда, поскольку оба критерия имеют одинаковый уровень значимости,

Проверка статистических гипотез

то вероятности попадания выборки Проверка статистических гипотез в области Проверка статистических гипотез при условии справедливости основной гипотезы Проверка статистических гипотез равны, т.е.

Проверка статистических гипотез

Далее, мощность Проверка статистических гипотез критерия отношения правдоподобия задается как суммарная вероятность попадания выборки в пересечение областей Проверка статистических гипотез и область Проверка статистических гипотез при условии справедливости конкурирующей гипотезы Проверка статистических гипотез

Проверка статистических гипотез

Аналогично определяется мощность второго критерия:

Проверка статистических гипотез

Вспоминая теперь, что по построению критерия отношения правдоподобия отношение правдоподобия

Проверка статистических гипотез

в области V больше С, а в области Проверка статистических гипотез не превосходит С, получаем из (1)-(3):

Проверка статистических гипотез

Значит, мощность второго критерия не больше мощности критерия отношения правдоподобия.

Замечание:

Нетрудно видеть, что мощности критерия отношения правдоподобия и второго критерия совпадают тогда и только тогда, когда Проверка статистических гипотез т. е. вероятности попадания в области Проверка статистических гипотез при условии справедливости как основной, так и конкурирующей гипотез равны нулю. Поэтому критерий отношения правдоподобия единственен (с точностью до множества, вероятность попадания в которое равна нулю).

Замечание:

Мы рассмотрели критерий отношения правдоподобия, критическая область которого задается неравенством Проверка статистических гипотез Аналогично можно было бы ввести критерий отношения правдоподобия с критической областью Проверка статистических гипотез имеющий то же самое свойство оптимальности.

Пусть нам теперь нужно построить наиболее мощный критерий заданного уровня значимости а. Может случиться так, что, определив критическое значение С, мы придем к следующей ситуации: критерий, задаваемый неравенством Проверка статистических гипотез будет иметь уровень значимости Проверка статистических гипотез меньше Проверка статистических гипотез а задаваемый неравенством Проверка статистических гипотез — уровень значимости Проверка статистических гипотез уже больше Проверка статистических гипотез

Возможный способ устранить возникшее затруднение — добавить к критической области Проверка статистических гипотез задаваемой неравенством Проверка статистических гипотез некоторую «лишнюю» подобласть Проверка статистических гипотез области Проверка статистических гипотез определяемой равенством Проверка статистических гипотез с таким расчетом, чтобы вероятность попадания в Проверка статистических гипотез при справедливой Проверка статистических гипотез равнялась Проверка статистических гипотез Нетрудно видеть, что если это удастся сделать, то построенный критерий будет наиболее мощным критерием уровня значимости а.

Но, с одной стороны, подобласть Проверка статистических гипотез вообще говоря, можно выбрать не единственным способом, поэтому могут появляться различные наиболее мощные критерии, отличающиеся друг от друга только при попадании в область Проверка статистических гипотез С другой стороны, в дискретном случае этого, как правило, вообще нельзя сделать, поскольку область Проверка статистических гипотез состоит из конечного числа точек. Поэтому обычно идут более простым путем: при попадании выборки Проверка статистических гипотез в область Проверка статистических гипотез которую называют областью рандомизации, проводят дополнительный независимый эксперимент с двумя исходами типа подбрасывания несимметричной монеты с вероятностью выпадения «цифры» Проверка статистических гипотез При этом если выпадает «герб», то принимают гипотезу Проверка статистических гипотез «цифра» — гипотезу Проверка статистических гипотез Такой критерий называется рандомизированным. В соответствии с формулой полной вероятности уровень значимости рандомизированного критерия равен Проверка статистических гипотез Очевидно также, что рандомизированный критерий отношения правдоподобия будет наиболее мощным. Естественно, в наше время при дополнительном эксперименте не бросают монету, а моделируют на ЭВМ псевдослучайное число.

В дальнейшем, как уже говорилось, мы не будем рассматривать рандомизированные критерии, хотя это и вызовет у нас определенные трудности при формулировке и доказательстве некоторых результатов.

При практической реализации критерия отношения правдоподобия обычно удобно пользоваться не отношением правдоподобия Проверка статистических гипотез а его логарифмом Проверка статистических гипотез В этом случае мы должны принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть ее (принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез В соответствии с общим правилом уровень значимости а и мощность Проверка статистических гипотез критерия отношения правдоподобия в зависимости от критического значения с определяются формулами

Проверка статистических гипотез

в дискретном случае, где сумма берется по всем значениям Проверка статистических гипотез принадлежащим множеству Проверка статистических гипотез и удовлетворяющим условию Проверка статистических гипотез и

Проверка статистических гипотез

в непрерывном. В этих формулах запись Проверка статистических гипотез обозначает вероятность статистике Проверка статистических гипотез принять значение больше С при условии справедливости гипотезы Проверка статистических гипотез

Если задан уровень значимости а, то критическое значение с определяется из решения относительно с уравнения Проверка статистических гипотез

Аналогично поступают и в том случае, когда задана мощность Проверка статистических гипотез

Наконец, встречаются задачи, в которых одновременно заданы и уровень значимости а, и мощность Проверка статистических гипотез а требуется определить минимальный объем выборки п, при котором можно разделить гипотезы Проверка статистических гипотез с такими значениями Проверка статистических гипотез В этом случае заметим, что функции Проверка статистических гипотез зависят, разумеется, и от объема выборки п. Необходимый объем выборки определяется как минимальное значение п, при котором существуют решения неравенств Проверка статистических гипотез и Проверка статистических гипотез

Пример:

Пусть выборка Проверка статистических гипотез произведена из нормальной генеральной совокупности с известной дисперсией Проверка статистических гипотез и неизвестным средним Проверка статистических гипотез относительно которого имеются две гипотезы: основная Проверка статистических гипотез конкурирующая Проверка статистических гипотез (для определенности пусть Проверка статистических гипотез

Построим критерий отношения правдоподобия для проверки гипотез Проверка статистических гипотез Для этого выпишем функции правдоподобия Проверка статистических гипотез и Проверка статистических гипотез

Проверка статистических гипотез

и определим логарифм отношения правдоподобия

Проверка статистических гипотез

Таким образом, мы должны принять гипотезу Проверка статистических гипотез если

Проверка статистических гипотез

или, вводя обозначение

Проверка статистических гипотез

если Проверка статистических гипотез и отвергнуть в противном случае.

Для того чтобы при заданном Проверка статистических гипотез найти уровень значимости критерия а, заметим, что при условии справедливости гипотезы Проверка статистических гипотез статистика Проверка статистических гипотез распределена по нормальному закону с параметрами Проверка статистических гипотез Поэтому

Проверка статистических гипотез

где, как обычно, Ф(x) — функция стандартного нормального распределения. Аналогично определяется мощность критерия Проверка статистических гипотез

Проверка статистических гипотез

Если задан уровень значимости а, то критическое значение Проверка статистических гипотез определяется формулой

Проверка статистических гипотез

где Проверка статистических гипотез— a-квантиль стандартного нормального закона.

Наконец, если заданы уровень значимости а и мощность Проверка статистических гипотез и требуется найти минимальный объем выборки п, позволяющий разделить гипотезы Проверка статистических гипотез с такими Проверка статистических гипотез должно удовлетворять двум равенствам:

Проверка статистических гипотез

Вычитая второе равенство из первого, получаем

Проверка статистических гипотез

Разумеется, реальный объем выборки должен быть ближайшим к п сверху целым числом.

Зададим вопрос: а можно ли для проверки двух простых гипотез Проверка статистических гипотез построить критерий с заданным уровнем значимости а и мощностью Проверка статистических гипотез который потребовал бы меньшего объема выборки, чем критерий отношения правдоподобия? Очевидно, среди критериев с фиксированным объемом выборки такого нет. Однако можно рассматривать последовательные критерии, в которых испытания проводятся последовательно, и после каждого испытания мы вправе либо прекратить испытания и принять одну из гипотез Проверка статистических гипотез либо продолжить наблюдения. При последовательном проведении испытаний после первого же испытания могут появиться столь серьезные основания в пользу той или иной гипотезы, что дальнейшие наблюдения становятся просто бессмысленными. Так, хороший врач по одному ярко выраженному признаку может поставить точный диагноз пациенту. Ясно, что у последовательного критерия число наблюдений случайно и поэтому вместо объема выборки следует оперировать средним числом наблюдений, которое, естественно, будет различным при условиях справедливости гипотез Проверка статистических гипотез Оказывается, среди последовательных критериев также существует наилучший, который мы сейчас и опишем.

Последовательный критерий отношения правдоподобия (критерий Вальда) строят, опираясь на логарифм отношения правдоподобия (и это естественно, поскольку отношение правдоподобия — наиболее объективная мера различия гипотез). Сама процедура принятия решения реализуется следующим образом. Задаются критические значения Проверка статистических гипотез Проводят первое испытание и по его результату Проверка статистических гипотез определяют логарифм отношения правдоподобия

Проверка статистических гипотез

в дискретном случае или

Проверка статистических гипотез

в непрерывном. Если Проверка статистических гипотез то принимают гипотезу Проверка статистических гипотез если Проверка статистических гипотез — гипотезу Проверка статистических гипотез если же Проверка статистических гипотез то проводят второе испытание. Снова определяют логарифм отношения правдоподобия

Проверка статистических гипотез

и сравнивают его с Проверка статистических гипотез Если Проверка статистических гипотез то принимают гипотезу Проверка статистических гипотез если Проверка статистических гипотез— гипотезу Проверка статистических гипотез если Проверка статистических гипотез то переходят к третьему испытанию, по результатам которого определяют

Проверка статистических гипотез

и т.д. Графическая схема проведения испытаний приведена на рис.2. Нахождение уровня значимости а и мощности Проверка статистических гипотез последовательного

Проверка статистических гипотез

критерия отношения правдоподобия представляет собой весьма сложную задачу (задача выхода случайного блуждания из полосы), все имеющиеся решения которой (за исключением некоторых частных случаев) нужно признать неудовлетворительными в смысле методов вычисления. Обычно используют следующие приближенные оценки:

Проверка статистических гипотез

точность которых, как правило, увеличивается с ростом Проверка статистических гипотез и уменьшением Проверка статистических гипотез Из этих оценок можно при заданных Проверка статистических гипотез найти приближенные выражения для критических значений Проверка статистических гипотез

Проверка статистических гипотез

Другими важными характеристиками последовательного критерия отношения правдоподобия являются средние числа наблюдений Проверка статистических гипотез при условиях справедливости гипотез Проверка статистических гипотез которые можно приближенно вычислить по формулам

Проверка статистических гипотез

где

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном.

Оптимальные свойства последовательного критерия отношения правдоподобия задаются следующей теоремой.

Теорема Вальда:

Среди всех критериев (последовательных или нет) с заданными уровнем значимости а и мощностью Проверка статистических гипотез и конечными средними числами наблюдений Проверка статистических гипотез при условии справедливости гипотезы Проверка статистических гипотез при условии справедливости гипотезы Проверка статистических гипотез последовательный критерий отношения правдоподобия минимизирует как Проверка статистических гипотез так и Проверка статистических гипотез

Доказательство теоремы наиболее просто получается с использованием байесовского подхода. Пусть гипотезы Проверка статистических гипотез появляются случайным образом с известными вероятностями Проверка статистических гипотез появления гипотезы Проверка статистических гипотез гипотезы Проверка статистических гипотез Пусть также задана стоимость d каждого наблюдения и при неправильном отклонении гипотезы Проверка статистических гипотез мы несем потери Проверка статистических гипотез Тогда для любого (в том числе последовательного) критерия К общий байесовский риск (общие средние потери) Проверка статистических гипотез определяются формулой

Проверка статистических гипотез

где Проверка статистических гипотез — вероятность неправильного отклонения гипотезы Проверка статистических гипотез а Проверка статистических гипотез — среднее число наблюдений при условии справедливости гипотезы Проверка статистических гипотез

Доказательство состоит из двух основных частей. Первая часть, представленная леммой 2.1, определяет байесовскую процедуру, минимизирующую (4). Отметим, что интерпретация (4) как байесовского риска помогает лучше понять доказательство и приводит к задачам, представляющим самостоятельный интерес.

Прежде чем сформулировать лемму 2.1, произведем некоторые дополнительные рассмотрения. Обозначим через Проверка статистических гипотез минимальный байесовский риск для всех критериев, требующих хотя бы одного наблюдения (класс таких критериев обозначим через Проверка статистических гипотез Тогда в силу линейности байесовского риска Проверка статистических гипотез и любого Проверка статистических гипотез справедливо соотношение

Проверка статистических гипотез

Следовательно, Проверка статистических гипотез — выпуклая (вверх) функция (рис. 3).

Проверка статистических гипотез

Рассмотрим критерий Проверка статистических гипотез отвергающий Проверка статистических гипотез без проведения испытаний. Имеем

Проверка статистических гипотез

Если

Проверка статистических гипотез

то определим Проверка статистических гипотез из решения следующих уравнений (см. рис. 3):

Проверка статистических гипотез

в противном случае положим

Проверка статистических гипотез

В силу свойств выпуклости и положительности функции Проверка статистических гипотез числа Проверка статистических гипотез удовлетворяющие уравнениям (5) или (6), определяются единственным образом.

Лемма:

Если Проверка статистических гипотез то при всех Проверка статистических гипотез байесовский риск (4) минимизирует последовательный критерий отношения правдоподобия с критическими значениями

Проверка статистических гипотез

Доказательство леммы 2.1. Заметим прежде всего, что если Проверка статистических гипотез или Проверка статистических гипотез то вообще не имеет смысла проводить испытания. Поэтому оптимальный критерий состоит в следующем поведении на первом шаге: мы принимаем гипотезу Проверка статистических гипотез если Проверка статистических гипотез отвергаем, если Проверка статистических гипотез и производим первое наблюдение, если Проверка статистических гипотез

Доказательство леммы 2.1 завершается теперь по индукции. Действительно, если уже сделано п наблюдений Проверка статистических гипотез то мы попадаем в ту же ситуацию, что и перед первым наблюдением: либо не производить дополнительные наблюдения и принять Проверка статистических гипотез с потерями Проверка статистических гипотез в случае неправильного решения, либо произвести Проверка статистических гипотез наблюдение. Наличие предыдущих наблюдений в силу аддитивности потерь никак не влияет на решение задачи, поскольку их вклад в общие потери последующими испытаниями уже нельзя ни увеличить, ни уменьшить. Итак, процедура принятия решения прежняя: если Проверка статистических гипотез то испытания прекращаются и принимается Проверка статистических гипотез а если Проверка статистических гипотез то производится дополнительное наблюдение. Однако при этом мы должны оперировать уже не априорной вероятностью Проверка статистических гипотез а апостериорной вероятностью Проверка статистических гипотез справедливости гипотезы Проверка статистических гипотез при условии выборки Проверка статистических гипотез определяемой формулой Байеса

Проверка статистических гипотез

Оптимальный байесовский критерий, таким образом, требует продолжения наблюдений только в случае Проверка статистических гипотез или после проведения элементарных преобразований в случае

Проверка статистических гипотез

Вторая часть доказательства теоремы 2 устанавливает связь между параметрами основной и байесовской задач и состоит в доказательстве следующей леммы.

Лемма:

Для любых Проверка статистических гипотез найдутся числа Проверка статистических гипотез такие, что решение байесовской задачи с потерями Проверка статистических гипотез стоимостью одного испытания d и априорной вероятностью Проверка статистических гипотез появления гипотезы Проверка статистических гипотез задается последовательным критерием отношения правдоподобия с границами

Проверка статистических гипотез

Доказательство леммы 2.2 представляет, по сути дела, доказательство существования обратного отображения для двумерного вектора Проверка статистических гипотез как функции от Проверка статистических гипотез Оно носит чисто аналитический характер и основывается на таких почти очевидных свойствах Проверка статистических гипотез как монотонность, непрерывность и т.д. Поэтому мы его здесь не приводим, отправляя заинтересованного читателя к [12]. Отметим, что требование леммы Проверка статистических гипотез нисколько не ограничивает общности задачи, поскольку этого всегда можно добиться линейной заменой «масштаба цен» («денежной реформой»),

Для окончания доказательства теоремы 2 рассмотрим последовательный критерий отношения правдоподобия с границами Проверка статистических гипотез Для любого числа Проверка статистических гипотез положим

Проверка статистических гипотез

Эти значения удовлетворяют равенствам (7) и неравенствам Проверка статистических гипотез Поэтому, по леммам 2.1 и 2.2, найдутся такие Проверка статистических гипотез что рассматриваемый критерий будет являться решением байесовской задачи с априорной вероятностью Проверка статистических гипотез потерями Проверка статистических гипотез и стоимостью одного наблюдения d. Обозначим через Проверка статистических гипотез вероятности ошибок и средние числа наблюдений данного последовательного критерия отношения правдоподобия. Кроме того, рассмотрим любой другой критерий для проверки гипотез Проверка статистических гипотез с вероятностями ошибок Проверка статистических гипотез и средними числами наблюдений Проверка статистических гипотез Поскольку последовательный критерий отношения правдоподобия минимизирует байесовский риск, то применяя к байесовской задаче и второй критерий, имеем

Проверка статистических гипотез

откуда получаем

Проверка статистических гипотез

Из справедливости последнего неравенства при всех Проверка статистических гипотез вытекают, в частности, соотношения Проверка статистических гипотез что и доказывает теорему.

Замечание к теореме 2. Анализируя доказательство леммы 2.1, нетрудно заметить, что если на первом шаге Проверка статистических гипотез то у нас имеются две (а с учетом рандомизации и больше) идентичные с точки зрения байесовского риска возможности: принять Проверка статистических гипотез или продолжить испытания; такая же ситуация может возникнуть и после любого наблюдения. В том случае, когда отношение правдоподобия

Проверка статистических гипотез

может равняться Проверка статистических гипотез только с нулевой вероятностью, последнее обстоятельство не влияет на последовательный критерий отношения правдоподобия. Если же эта вероятность не равна нулю, то можно предложить, по крайней мере, две модификации критерия, одна из которых будет предписывать прекращение испытаний при равенстве отношения правдоподобия соответствующей константе, а другая, наоборот, продолжение наблюдений. Обе эти модификации, как уже говорилось, имеют одинаковый байесовский риск. Однако другие характеристики для них будут различными; в частности, вторая модификация требует большего числа наблюдений. Впрочем, никакого противоречия с изложенной теорией здесь нет, поскольку увеличение количества наблюдений компенсируется уменьшением уровня значимости и увеличением мощности. Поэтому для построения последовательного критерия отношения правдоподобия, имеющего заданные уровень значимости и мощность, необходимо, вообще говоря, привлекать рандомизацию. Подробнее на этом мы останавливаться не будем.

Пример:

Пусть наблюдается нормально распределенная случайная величина X с известной дисперсией Проверка статистических гипотез и неизвестным средним Проверка статистических гипотез относительно которого имеются две простые гипотезы: Проверка статистических гипотез Как показано в примере 1, отношение правдоподобия имеет вид

Проверка статистических гипотез

При применении последовательного критерия отношения правдоподобия наблюдения продолжаются, пока Проверка статистических гипотез в противном случае принимается либо гипотеза Проверка статистических гипотез (если Проверка статистических гипотез либо гипотеза Проверка статистических гипотез (если Проверка статистических гипотез

Вычислим Проверка статистических гипотез Поскольку Проверка статистических гипотез а Проверка статистических гипотез то

Проверка статистических гипотез

Предположим теперь, что заданы конкретные значения: Проверка статистических гипотез Тогда Проверка статистических гипотез откуда определяем средние числа наблюдений Проверка статистических гипотез Для сравнения, подставив в примере 1 значения Проверка статистических гипотез находим, что при использовании обычного критерия отношения правдоподобия для разделения гипотез Проверка статистических гипотез с уровнем значимости Проверка статистических гипотез и мощностью Проверка статистических гипотез необходимо иметь выборку объема п = 9. Значит, применение последовательного критерия отношения правдоподобия в случае справедливости гипотезы Проверка статистических гипотез позволяет в среднем сократить число наблюдений более чем в 2 раза, а в случае справедливости гипотезы Проверка статистических гипотез— почти в 2 раза.

У последовательного критерия отношения правдоподобия можно отметить два основных недостатка.

Первым является невозможность одновременного проведения нескольких испытаний.

Второй связан с тем, что если произошла ошибка в определении гипотез Проверка статистических гипотез и истинная теоретическая функция распределения F(x) заключена между гипотетическими Проверка статистических гипотез то потребуется очень большое число наблюдений, поскольку логарифм отношения правдоподобия будет колебаться вокруг нуля, не выходя ни на одну из границ Проверка статистических гипотез или Проверка статистических гипотез Для того чтобы компенсировать этот второй недостаток, на практике часто принудительно ограничивают число наблюдений.

Однопараметрические гипотезы. Равномерно наилучшие критерии

Пусть выборка Проверка статистических гипотез извлечена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей одно-параметрическому семейству Проверка статистических гипотез с неизвестным параметром Проверка статистических гипотезобласть возможных значений которого будем обозначать через Проверка статистических гипотез (обычно Проверка статистических гипотез представляет собой либо всю прямую Проверка статистических гипотез либо полупрямую Проверка статистических гипотез либо отрезок Проверка статистических гипотез Предположим, что в Проверка статистических гипотез выделено некоторое подмножество Проверка статистических гипотез дополнение к нему в Проверка статистических гипотез обозначим через Проверка статистических гипотез Относительно неизвестного параметра Проверка статистических гипотез имеются две гипотезы: основная Проверка статистических гипотез и конкурирующая Проверка статистических гипотез Задача состоит в построении критерия для проверки двух (вообще говоря, сложных) однопараметрических гипотез Проверка статистических гипотез Отметим, что если подмножество Проверка статистических гипотез состоит всего из одной точки Проверка статистических гипотез критерии для проверки гипотез Проверка статистических гипотез называют обычно критериями значимости. В этом параграфе мы рассмотрим те случаи, в которых существуют равномерно наиболее мощные несмещенные критерии. Построение критериев в остальных случаях можно проводить по общему рецепту, приведенному для (много) параметрических гипотез в следующем параграфе.

Односторонние гипотезы

Пусть подмножество Проверка статистических гипотез состоит из всех Проверка статистических гипотез соответственно подмножество Проверка статистических гипотез будет содержать все Проверка статистических гипотез Таким образом, мы имеем две односторонние гипотезы: основную Проверка статистических гипотези конкурирующую Проверка статистических гипотез Возьмем произвольные Проверка статистических гипотез и составим отношение правдоподобия

Проверка статистических гипотез

где

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном — функция правдоподобия.

Теорема:

Односторонние гипотезы. Предположим, что существует (одномерная) статистика Проверка статистических гипотез такая, что для любых Проверка статистических гипотез отношение правдоподобия можно представить в виде

Проверка статистических гипотез

причем Проверка статистических гипотез — неубывающая функция от S. Тогда существует равномерно наиболее мощный критерий для проверки гипотез Проверка статистических гипотез критическая область Проверка статистических гипотез которого состоит из всех точек Проверка статистических гипотез удовлетворяющих неравенству Проверка статистических гипотез а уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез являются неубывающими функциями от Проверка статистических гипотез и как обычно, определяются формулами

Проверка статистических гипотез

в дискретном случае и

Проверка статистических гипотез

в непрерывном. Здесь Проверка статистических гипотез — вероятность статистике Проверка статистических гипотез принять значение больше С при условии, что истинное значение неизвестного параметра равно Проверка статистических гипотез

Доказательство. Используем тот факт, что предложенный критерий является наиболее мощным для проверки простых гипотез Проверка статистических гипотезПроверка статистических гипотез при всех Проверка статистических гипотез Действительно, для гипотез Проверка статистических гипотез критерий отношения правдоподобия определяется неравенством

Проверка статистических гипотез

или, что в силу предположений теоремы то же самое, неравенством

Проверка статистических гипотез

где Проверка статистических гипотез— обратная к Проверка статистических гипотез функция, причем поскольку критерий отношения правдоподобия является несмещенным, то уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез для этого критерия удовлетворяют неравенству Проверка статистических гипотез — функция мощности (т.е. обобщенная запись Проверка статистических гипотез см. параграф 1). Таким образом, мы доказали, что Проверка статистических гипотез являются неубывающими функциями от Проверка статистических гипотезоткуда, в частности, следует: Проверка статистических гипотез

Далее, из сказанного также вытекает, что рассматриваемый критерий является наиболее мощным уровня значимости Проверка статистических гипотез Для проверки простых гипотез Проверка статистических гипотез — любое число, большее Проверка статистических гипотез Но тогда он является равномерно наиболее мощным критерием размера Проверка статистических гипотез для проверки изначальных гипотез Проверка статистических гипотез Действительно, любой другой критерий размера Проверка статистических гипотез должен в точке Проверка статистических гипотез (как и в любой другой точке Проверка статистических гипотез иметь уровень значимости Проверка статистических гипотез Значит, и мощность Проверка статистических гипотез этого другого критерия при любом Проверка статистических гипотез не должна превосходить мощности наиболее мощного критерия уровня значимости со для проверки простых гипотез Проверка статистических гипотез т.е. должна удовлетворять неравенству Проверка статистических гипотез Последнее неравенство и доказывает теорему.

Замечание:

Как обычно, чтобы соблюсти необходимую строгость приведенного доказательства, нужно привлекать рандомизацию. Кроме того, если потребовать, чтобы функции распределения Проверка статистических гипотез были различными для разных Проверка статистических гипотез то утверждение теоремы о монотонности функций Проверка статистических гипотез можно усилить до строгой монотонности. Наконец, заметим, что семейство распределений Проверка статистических гипотез с указанным в условиях теоремы свойством называют обычно семейством с монотонным отношением правдоподобия.

Замечание:

Нетрудно видеть, что при заданном размере Проверка статистических гипотез рассматриваемый критерий наряду с максимизацией мощности Проверка статистических гипотез при каждом Проверка статистических гипотез минимизирует также уровень значимости Проверка статистических гипотез при любом Проверка статистических гипотез Поэтому обращенный критерий Проверка статистических гипотез используемый для проверки основной гипотезы Проверка статистических гипотез до против конкурирующей гипотезы Проверка статистических гипотез будет также равномерно наиболее мощным.

Пример:

Пусть выборка Проверка статистических гипотез произведена из нормальной генеральной совокупности с известной дисперсией Проверка статистических гипотез и неизвестным средним Проверка статистических гипотез относительно которого имеются две гипотезы: основная Проверка статистических гипотез и конкурирующая Проверка статистических гипотез Определим отношение правдоподобия

Проверка статистических гипотез

Вводя статистику

Проверка статистических гипотез

видим,что

Проверка статистических гипотез

причем при Проверка статистических гипотез функция Проверка статистических гипотез является неубывающей по S. Значит, существует равномерно наиболее мощный критерий для проверки гипотез Проверка статистических гипотез критическая область которого Проверка статистических гипотез задается неравенством Проверка статистических гипотез

Для того чтобы определить уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез этого критерия, заметим, что статистика Проверка статистических гипотез распределена по нормальному закону с параметрами Проверка статистических гипотез Тогда

Проверка статистических гипотез

Поскольку Проверка статистических гипотез — возрастающая функция от Проверка статистических гипотез то размер критерия

Проверка статистических гипотез

Теперь, если, наоборот, нужно построить критерий заданного размера Проверка статистических гипотез то критическое значение С определяется выражением

Проверка статистических гипотез

где Проверка статистических гипотез — а-квантиль стандартного нормального закона.

Двусторонняя основная гипотеза

Рассмотрим двустороннюю основную гипотезу Проверка статистических гипотез Соответственно конкурирующая гипотеза Проверка статистических гипотез имеет вид: Проверка статистических гипотез Пусть существуют возрастающая функция Проверка статистических гипотез и функции Проверка статистических гипотез такие что плотность распределения Проверка статистических гипотез любой функции распределения из семейства Проверка статистических гипотез (чтобы не рассматривать рандомизированные критерии, мы ограничимся здесь только непрерывным случаем) представима в виде

Проверка статистических гипотез

(принадлежит экспоненциальному семейству, см. гл.2, параграф 1). Введем статистику

Проверка статистических гипотез

Определим для любых двух чисел Проверка статистических гипотез вероятности

Проверка статистических гипотез

Теорема:

Двусторонняя основная гипотеза. При сделанных предположениях существует равномерно наиболее мощный критерий размера Проверка статистических гипотез для проверки гипотез Проверка статистических гипотез критическая область Проверка статистических гипотез которого задается неравенствами

Проверка статистических гипотез

где Проверка статистических гипотез определяются из уравнения

Проверка статистических гипотез

Уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез задаются формулами :

Проверка статистических гипотез

Доказательство:

Для доказательства теоремы нам понадобится следующая лемма.

Лемма:

Система уравнений (8) при любом Проверка статистических гипотез имеет решение.

Доказательство леммы 4.1, как и доказательство леммы 2.2, носит аналитический характер, и мы его здесь не приводим (см. [11]).

Представим функцию правдоподобия в виде

Проверка статистических гипотез

где

Проверка статистических гипотез

Рассмотрим теперь следующую байесовскую постановку задачи. Пусть основная «смешанная» гипотеза Проверка статистических гипотез состоит в том, что выборка Проверка статистических гипотез произведена из генеральной совокупности с теоретической плотностью распределения Проверка статистических гипотез появившейся с вероятностью q, или с теоретической плотностью распределения Проверка статистических гипотез появившейся с вероятностью Проверка статистических гипотез а конкурирующая гипотеза Проверка статистических гипотез — из генеральной совокупности с теоретической плотностью распределения Проверка статистических гипотез — произвольное, но фиксированное число, Проверка статистических гипотез Соответственно гипотезы Проверка статистических гипотез имеют априорные вероятности Проверка статистических гипотез Нетрудно видеть, что мы фактически имеем дело с двумя простыми гипотезами, причем по формуле полной вероятности гипотеза Проверка статистических гипотез приписывает выборке Проверка статистических гипотез плотность распределения

Проверка статистических гипотез

а гипотеза Проверка статистических гипотез — плотность распределения

Проверка статистических гипотез

Байесовский риск Проверка статистических гипотез (вероятность принятия неправильной гипотезы) имеет вид

Проверка статистических гипотез

где Проверка статистических гипотез — критическая и допустимая области принятия Проверка статистических гипотез Можно показать, что по аналогии с критерием отношения правдоподобия оптимальный байесовский критерий предписывает принять Проверка статистических гипотез при

Проверка статистических гипотез

и отвергнуть в противном случае. В силу (9) неравенство для попадания выборки в критическую область можно переписать в виде

Проверка статистических гипотез

Нетрудно видеть, что из-за монотонности Проверка статистических гипотез левая часть этого неравенства — выпуклая вниз функция, неограниченно возрастающая при Проверка статистических гипотез Поэтому его можно переписать в виде Проверка статистических гипотез где

Проверка статистических гипотез

причем при Проверка статистических гипотез существует обратное преобразование

Проверка статистических гипотез

В соответствии с леммой 4.1 для любого Проверка статистических гипотез существует решение уравнения (8), а значит, найдутся такие Проверка статистических гипотез при которых оптимальный байесовский критерий для проверки гипотез Проверка статистических гипотез имеет при Проверка статистических гипотез равные вероятности ошибки (уровни значимости) Проверка статистических гипотез

Но этот же критерий можно применить и в небайесовекой модели для проверки основной сложной гипотезы Проверка статистических гипотез против простой гипотезы Проверка статистических гипотез Ясно, что полученный критерий представляет собой именно тот критерий, о котором говорится в утверждении теоремы. Покажем, что он является равномерно наиболее мощным размера Проверка статистических гипотез для проверки гипотез Проверка статистических гипотез Для этого рассмотрим любой другой критерий размера не больше Проверка статистических гипотез и обозначим через Проверка статистических гипотез его уровни значимости в точках Проверка статистических гипотез и мощность соответственно. Тогда

Проверка статистических гипотез

Снова считая, что оба критерия (основной и только что введенный) являются байесовскими, вычислим для них байесовские риски Проверка статистических гипотез

Проверка статистических гипотез

Вспоминая теперь, что при Проверка статистических гипотез первый из этих критериев является оптимальным байесовским, получаем неравенство Проверка статистических гипотез или с учетом (10)-(12) Проверка статистических гипотез

В силу произвольности выбора Проверка статистических гипотез предложенный критерий является равномерно наиболее мощным размера Проверка статистических гипотез для проверки сложных гипотез Проверка статистических гипотез

Совершенно аналогично показывается, что построенный критерий является при Проверка статистических гипотез наиболее мощным для проверки гипотезы Проверка статистических гипотез против гипотезы Проверка статистических гипотез среди всех критериев, для которых

Проверка статистических гипотез

откуда, в частности, следует, что Проверка статистических гипотез для любого Проверка статистических гипотез Значит, размер построенного критерия в точности равен Проверка статистических гипотез

Для окончания доказательства теоремы осталось заметить, что поскольку построенный критерий имеет размер Проверка статистических гипотез при проверке изначальных гипотез Проверка статистических гипотез и является равномерно наиболее мощным размера Проверка статистических гипотез при замене основной гипотезы Проверка статистических гипотез на «упрощенную» Проверка статистических гипотез или Проверка статистических гипотез то он (см. окончание доказательства теоремы 3) является также равномерно наиболее мощным для проверки гипотез Проверка статистических гипотез

Замечание:

Вообще говоря, уравнение (8) имеет решение только в тех случаях, когда вероятности событий

Проверка статистических гипотез

где

Проверка статистических гипотез

при истинных значениях Проверка статистических гипотез параметра Проверка статистических гипотез равны нулю. В общем случае (в частности, при дискретных наблюдениях), как обычно, нужно использовать рандомизацию, т. е. выбирать наряду с Проверка статистических гипотез вероятности Проверка статистических гипотез принятия гипотезы Проверка статистических гипотез при условиях Проверка статистических гипотез

Замечание:

Фактически при доказательстве теоремы было показано больше, чем требовалось. А именно, рассматриваемый критерий минимизирует уровень значимости Проверка статистических гипотез среди всех критериев, удовлетворяющих соотношениям

Проверка статистических гипотез

Это замечание нам понадобится при рассмотрении двусторонней конкурирующей гипотезы.

Проверка статистических гипотез

функция мощности строго возрастает, а при Проверка статистических гипотез наоборот, строго убывает. В силу утверждения теоремы 4 любой другой критерий для проверки Проверка статистических гипотез удовлетворяющий условию

Проверка статистических гипотез

будет иметь функцию мощности, задаваемую кривой типа 2, т. е. лежащей не ниже кривой 1 при Проверка статистических гипотез и не выше кривой 1 при Проверка статистических гипотез Наконец, если потребовать, чтобы просто размер критерия равнялся Проверка статистических гипотез то для некоторых Проверка статистических гипотез уровень значимости может оказаться меньше Проверка статистических гипотез (кривая 3).

Пример:

Выборка Проверка статистических гипотез произведена из нормальной генеральной совокупности с известной дисперсией Проверка статистических гипотез и неизвестным средним Проверка статистических гипотез относительно которого имеются две гипотезы: двусторонняя основная гипотеза Проверка статистических гипотез и конкурирующая гипотеза Проверка статистических гипотез

Полагая

Проверка статистических гипотез

видим, что плотность нормального распределения представима в виде

Проверка статистических гипотез

причем Проверка статистических гипотез — возрастающая функция от Проверка статистических гипотез Поскольку статистика

Проверка статистических гипотез

распределена по нормальному закону с параметрами Проверка статистических гипотез то вероятности Проверка статистических гипотез определяются выражениями:

Проверка статистических гипотез

Проверка статистических гипотез

Рассмотрим уравнение

Проверка статистических гипотез

относительно неизвестного С. Это уравнение численно можно решить, например, методом последовательных приближений. Полагая теперь

Проверка статистических гипотез

и вспоминая тождество Проверка статистических гипотез убеждаемся, что Проверка статистических гипотезудовлетворяют равенствам

Проверка статистических гипотез

Таким образом, равномерно наиболее мощный критерий размера Проверка статистических гипотез предписывает нам отвергнуть гипотезу Проверка статистических гипотез если Проверка статистических гипотез и принять ее в противном случае. Уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез критерия задаются формулами

Проверка статистических гипотез

Двусторонняя конкурирующая гипотеза

Пусть теперь двусторонней является конкурирующая гипотеза Проверка статистических гипотез основная гипотеза имеет вид Проверка статистических гипотез Предположим также, что все допущения относительно семейства функций распределения Проверка статистических гипотез принятые при рассмотрении двусторонней основной гипотезы, остаются в силе. Таким образом, мы только поменяли местами основную и конкурирующую гипотезы. Казалось бы, от такой замены ничего не должно измениться и равномерно наиболее мощный критерий для проверки основной двусторонней гипотезы будет таковым и для проверки двусторонней конкурирующей гипотезы. Однако это не так. Более того, для двусторонней конкурирующей гипотезы вообще не существует равномерно наиболее мощного критерия. Причина такого «неравноправия» кроется в том, что в определение равномерно наиболее мощного критерия уровень значимости и мощность входят несимметрично: от уровня значимости требуется только, чтобы он при каждом Проверка статистических гипотез не превосходил размера Проверка статистических гипотез в то время как мощность при каждом Проверка статистических гипотез должна быть максимальна. Тем не менее, имеет место следующая теорема.

Теорема:

Двусторонняя конкурирующая гипотеза. Пусть дополнительно к условиям теоремы 4 функция Проверка статистических гипотез является непрерывной.

Тогда для проверки гипотез Проверка статистических гипотез существует равномерно наиболее мощный несмещенный критерий, который в точности совпадает с равномерно наиболее мощным критерием для проверки двусторонней основной гипотезы, за исключением того, что меняются местами критическая и допустимая области.

Доказательство:

Можно показать, что из условия непрерывности Проверка статистических гипотез следует непрерывность функции мощности любого критерия, которая в свою очередь для несмещенного критерия влечет за собой равенство уровня значимости в точках Проверка статистических гипотез размеру Проверка статистических гипотез Таким образом, равномерно наиболее мощный несмещенный критерий можно искать только среди критериев, для которых

Проверка статистических гипотез

С другой стороны, как вытекает из замечания 2 к теореме 4, «обращенный» критерий теоремы 5 является наиболее мощным для проверки основной гипотезы Проверка статистических гипотез против конкурирующей гипотезы Проверка статистических гипотез среди всех критериев, удовлетворяющих (13). Но из самого утверждения теоремы 4 следует, что рассматриваемый критерий при каждом Проверка статистических гипотез имеет уровень значимости Проверка статистических гипотез т.е. является несмещенным, а значит, он будет также равномерно наиболее мощным и среди всех несмещенных критериев для проверки гипотез Проверка статистических гипотез поскольку, как уже показывалось при доказательстве теорем 3 и 4, наличие дополнительных ограничений может привести только к уменьшению мощности критерия.

На рис.5 (кривая 1) приведен типичный график функции мощности равномерно наиболее мощного несмещенного критерия размера Проверка статистических гипотез для

Проверка статистических гипотез

проверки двусторонней конкурирующей гипотезы. Кривая 2 изображает функцию мощности другого критерия, имеющего тот же размер Проверка статистических гипотез а при Проверка статистических гипотез — мощность, большую, чем равномерно наиболее мощный несмещенный критерий. Однако этот другой критерий является смещенным, поскольку при Проверка статистических гипотез его мощность меньше размера Проверка статистических гипотез

Многопараметрические гипотезы

Пусть выборка Проверка статистических гипотез произведена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей параметрическому семейству Проверка статистических гипотез зависящему от неизвестного векторного параметра Проверка статистических гипотез Множество возможных значений параметра Проверка статистических гипотез будем обозначать через Проверка статистических гипотез Не вдаваясь в подробное описание Проверка статистических гипотез скажем только, что Проверка статистических гипотез представляет собой либо все k-мерное пространство Проверка статистических гипотез либо достаточно «большую» его часть (например, в случае двух неизвестных параметров Проверка статистических гипотез множество Проверка статистических гипотез в может быть полуплоскостью, полосой, прямоугольником и т.д.). Предположим теперь, что в множестве Проверка статистических гипотез выделено некоторое подмножество Проверка статистических гипотез Как обычно, дополнение к Проверка статистических гипотез будем обозначать через Проверка статистических гипотез Нам нужно проверить две сложные параметрические гипотезы: основную Проверка статистических гипотез против конкурирующей Проверка статистических гипотез

Основным методом для проверки таких гипотез является метод отношения правдоподобия, представляющий естественное обобщение критерия отношения правдоподобия (см. параграф 2). Этот метод заключается в следующем. Рассмотрим функцию правдоподобия

Проверка статистических гипотез

в дискретном случае или

Проверка статистических гипотез

в непрерывном и определим два ее максимальных значения как функции от аргументов Проверка статистических гипотез

Проверка статистических гипотез

и

Проверка статистических гипотез

(очевидно, что Проверка статистических гипотез не превосходит Проверка статистических гипотез

Так же, как и в методе максимального правдоподобия (см. параграф 4 гл.2), для нахождения значений Проверка статистических гипотез и Проверка статистических гипотез доставляющих максимум функции правдоподобия Проверка статистических гипотез подмножестве Проверка статистических гипотез и множестве Проверка статистических гипотез обычно используют систему уравнений правдоподобия

Проверка статистических гипотез

с соблюдением соответствующих ограничений. Определим теперь отношение правдоподобия

Проверка статистических гипотез

Интуитивно ясно, что если Проверка статистических гипотез мало отличается от единицы, то это говорит в пользу основной гипотезы Проверка статистических гипотез Полагая Проверка статистических гипотез получим следующий критерий для проверки двух сложных параметрических гипотез: мы должны принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть в противном случае, где С — критическое значение критерия.

Хотя уровень значимости Проверка статистических гипотез и мощность Проверка статистических гипотез полученного критерия и определяются, как обычно, формулами

Проверка статистических гипотез

их нахождение для конкретных семейств Проверка статистических гипотез представляет, как правило, сложную в вычислительном плане задачу. Поэтому ограничимся выписыванием приближенного значения уровня значимости Проверка статистических гипотез справедливого при большом объеме выборки п.

Теорема:

Асимптотическое свойство метода отношения правдоподобия. Пусть Проверка статистических гипотез есть m-мерное (не обязательно линейное) подпространство Проверка статистических гипотез Тогда (при некоторых дополнительных предположениях относительно семейства Проверка статистических гипотез статистика Проверка статистических гипотез при условии, что истинное значение параметра Проверка статистических гипотез асимптотически при Проверка статистических гипотез имеет Проверка статистических гипотез-распределение с Проверка статистических гипотез степенями свободы.

Доказательство теоремы 6, которое мы здесь не приводим, в идейном плане состоит из двух частей. Первая часть устанавливает асимптотическую нормальность оценок Проверка статистических гипотез во и является многомерным аналогом теоремы 7 гл. 2. Вторая часть заключается в подстановке полученных в первой части асимптотически нормальных оценок в квадратичную форму, приближенно описывающую отношение правдоподобия вблизи истинного значения параметра Проверка статистических гипотез

Таким образом, уровень значимости критерия определяется приближенной формулой Проверка статистических гипотез — случайная величина, имеющая Проверка статистических гипотез-распределение с Проверка статистических гипотез степенями свободы (см. [1, табл. 2.1а]), и, что следует отметить особо, уровень значимости при большом объеме выборки практически не зависит от истинного значения параметра Проверка статистических гипотез Если же, наоборот, задан уровень значимости Проверка статистических гипотез то критическое значение С приближенно совпадает с Проверка статистических гипотез квантилью Проверка статистических гипотез-распределения с Проверка статистических гипотез степенями свободы [1, табл. 2.2а].

Пример:

Выборка Проверка статистических гипотез произведена из нормальной генеральной совокупности с неизвестными средним Проверка статистических гипотез и дисперсией Проверка статистических гипотез Требуется построить критерий уровня значимости Проверка статистических гипотез для проверки сложной основной гипотезы Проверка статистических гипотез против сложной конкурирующей гипотезы Проверка статистических гипотез В этом примере множество всех возможных значений параметров Проверка статистических гипотез представляет полуплоскость Проверка статистических гипотез а гипотеза Но выделяет в этой полуплоскости полупрямую Проверка статистических гипотез Функция правдоподобия имеет вид

Проверка статистических гипотез

Для определения значения Проверка статистических гипотез доставляющего максимум функции правдоподобия в множестве Проверка статистических гипотез обратимся к примеру 25 из гл. 2. Тогда

Проверка статистических гипотез

где Проверка статистических гипотез — выборочные среднее и дисперсия, и, значит, само максимальное значение

Проверка статистических гипотез

Найдем теперь Проверка статистических гипотез максимизирующее функцию правдоподобия в подмножестве Проверка статистических гипотез Для этого заметим, что поскольку Проверка статистических гипотез то система уравнений правдоподобия превращается в одно уравнение

Проверка статистических гипотез

решая которое, получаем

Проверка статистических гипотез

Таким образом,

Проверка статистических гипотез

Отношение правдоподобия имеет вид

Проверка статистических гипотез

а сам критерий предписывает нам принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть ее, если Проверка статистических гипотез Поскольку множество Проверка статистических гипотез имеет размерность Проверка статистических гипотез а подмножество Проверка статистических гипотез — размерность Проверка статистических гипотез то критическое значение Проверка статистических гипотез где Проверка статистических гипотез— а-квантиль Проверка статистических гипотез-распределения с одной степенью свободы. Полученный критерий удобно записать в несколько ином виде. Действительно, производя элементарные преобразования, имеем

Проверка статистических гипотез

Используя теперь монотонность функции Проверка статистических гипотез видим, что неравенство Проверка статистических гипотез эквивалентно неравенству Проверка статистических гипотез где Проверка статистических гипотез или, что то же самое, неравенству Проверка статистических гипотез Иными словами, мы пришли к естественному критерию: принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть в противном случае.

Поскольку статистика

Проверка статистических гипотез

имеет t-распределение (см. гл. 1, параграф 4), то критическое значение Проверка статистических гипотез при размере критерия Проверка статистических гипотез представляет собой Проверка статистических гипотез-квантиль t-распределения с n-1 степенями свободы.

Отметим [12], что построенный критерий является равномерно наиболее мощным несмещенным для проверки гипотез Проверка статистических гипотез

Пример:

Предположим, мы произвели опыт, состоящий из п испытаний, а результат каждого испытания характеризуется двумя случайными факторами (показателями), причем первый фактор может принимать значения (уровни действия фактора) Проверка статистических гипотеза второй — Проверка статистических гипотез Результаты опыта можно представить в виде табл. 1, где Проверка статистических гипотез — число испытаний, в которых первый фактор подействовал на уровне i, а второй — на уровне j. Наша задача — проверить, действуют ли эти факторы независимо (гипотеза Проверка статистических гипотез или между ними существует зависимость (гипотеза Проверка статистических гипотез

Проверка статистических гипотез

Здесь мы имеем дело с так называемой двухфакторной Проверка статистических гипотез-уровневой моделью. Опишем эту модель. Прежде всего, если не делать предположения о независимости факторов, то имеется Проверка статистических гипотез неизвестных параметров Проверка статистических гипотез — вероятностей того, что первый фактор подействует на уровне i, а второй — на уровне j. Значит, множество Проверка статистических гипотез представляет собой Проверка статистических гипотез-мерное подпространство пространства Проверка статистических гипотез выделяемое соотношениями Проверка статистических гипотезПроверка статистических гипотез (в силу последнего равенства размерность пространства Проверка статистических гипотез равна Проверка статистических гипотез В свою очередь, в силу независимости факторов подмножество Проверка статистических гипотез является Проверка статистических гипотез-мерным подпространством пространства Проверка статистических гипотез задаваемым ограничениями

Проверка статистических гипотез

Выпишем логарифм функции правдоподобия

Проверка статистических гипотез

Поскольку Проверка статистических гипотез удовлетворяют уравнению связи Проверка статистических гипотез то для вычисления максимального значения Проверка статистических гипотез определим лагранжиан

Проверка статистических гипотез

и в соответствии с общими правилами нахождения максимума будем искать Проверка статистических гипотез из системы уравнений

Проверка статистических гипотез

Несложные подсчеты показывают, что Проверка статистических гипотез Таким образом,

Проверка статистических гипотез

Аналогично поступим, если Проверка статистических гипотез Тогда

Проверка статистических гипотез

и, значит,

Проверка статистических гипотез

где Проверка статистических гипотез суммарное число наблюдений, в которых первый фактор подействовал на уровне Проверка статистических гипотез суммарное число наблюдений, в которых второй фактор подействовал на уровне j.

Выписывая отношение правдоподобия

Проверка статистических гипотез

получаем окончательно, что мы должны принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть в противном случае. Критическое значение С приближенно совпадает с Проверка статистических гипотез-квантилью Проверка статистических гипотезраспределения с Проверка статистических гипотез степенями свободы, где а — уровень значимости.

Отметим, что при практической реализации описанного критерия число наблюдений п должно быть существенно больше Проверка статистических гипотез более того, достаточно большими должны быть все Проверка статистических гипотез (обычно рекомендуется не менее 5).

Критерии согласия

Предположим, что выборка Проверка статистических гипотез произведена из генеральной совокупности с неизвестной теоретической функцией распределения, относительно которой имеются две непараметрические гипотезы: простая основная Проверка статистических гипотез и сложная конкурирующая Проверка статистических гипотез — известная функция распределения. Иными словами, мы хотим проверить, согласуются эмпирические данные с нашим гипотетическим предположением относительно теоретической функции распределения или нет. Поэтому критерии для проверки гипотез Проверка статистических гипотез носят название критериев согласия. Приведем три наиболее часто употребляемых критерия согласия.

Критерий Колмогорова

Уже говорилось (параграф 3 гл. 1), что в силу теоремы Гливенко-Кантелли эмпирическая функция распределения Проверка статистических гипотез представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнить эмпирическую функцию распределения Проверка статистических гипотез с гипотетической Проверка статистических гипотез и, если мера расхождения между ними мала, то считать справедливой гипотезу Проверка статистических гипотез Наиболее естественной и простой из таких мер (будем предполагать, что Проверка статистических гипотез — непрерывная функция) является равномерное расстояние

Проверка статистических гипотез

(рис.6 и параграф 5 гл.2). Однако при построении критерия Колмогорова более удобно пользоваться нормированным расстоянием Проверка статистических гипотез

Итак, рассмотрим статистику

Проверка статистических гипотез

Критерий Колмогорова предписывает принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть в противном случае, где С — критическое значение критерия.

Если гипотеза Проверка статистических гипотез справедлива, то распределение статистики р не зависит от гипотетической функции распределения Проверка статистических гипотез (доказательство этого факта следует из инвариантности статистики критерия Колмогорова относительно монотонных преобразований, в частности преобразования Проверка статистических гипотез — обратная к Проверка статистических гипотез функция; преобразование Проверка статистических гипотез приводит выборку Проверка статистических гипотез к равномерно распределенной на отрезке (0,1)). Поэтому можно рассчитать таблицы,

Проверка статистических гипотез

которые по заданному объему выборки п и критическому значению С позволяют определить уровень значимости критерия а. Поскольку на практике обычно, наоборот, считают известными уровень значимости а и объем выборки n, а затем по ним определяют критическое значение С, то именно такая таблица приведена в [1, табл. 6.2].

При Проверка статистических гипотез распределение статистики р сходится к распределению Колмогорова [1, табл. 6.1], и критическое значение С при большом объеме выборки практически совпадает с Проверка статистических гипотез-квантилью Проверка статистических гипотезраспределения Колмогорова.

При практической реализации критерия Колмогорова сначала по выборке Проверка статистических гипотез составляют вариационный ряд Проверка статистических гипотез Затем находят Проверка статистических гипотез и определяют значения статистики р по формуле

Проверка статистических гипотез

Наконец, сравнивают полученное значение р с критическим значением С для заданного уровня значимости а и принимают или отвергают гипотезу Проверка статистических гипотез

Критерий Проверка статистических гипотез Пусть Проверка статистических гипотез — некоторая функция распределения, не совпадающая с Проверка статистических гипотез Критерий Колмогорова хорошо разделяет выборки (имеет большую мощность) из генеральных совокупностей с теоретическими функциями распределения Проверка статистических гипотез если Проверка статистических гипотез достаточно велико хотя бы на малом интервале изменения х. Встречается и обратная ситуация, когда Проверка статистических гипотез мало, но постоянно на достаточно большом интервале изменения х. В этом случае для разделения гипотез Проверка статистических гипотез естественно пользоваться каким-либо интегральным расстоянием, например расстоянием Проверка статистических гипотез (см. параграф 5 гл. 2).

Статистика Проверка статистических гипотез критерия Проверка статистических гипотез задается выражением

Проверка статистических гипотез

(мы предполагаем, что гипотетическая функция распределения Проверка статистических гипотез имеет плотность распределения Проверка статистических гипотез а критическая область Проверка статистических гипотез состоит из всех тех точек Проверка статистических гипотез для которых Проверка статистических гипотез где С — критическое значение критерия. Используя вариационный ряд X,… ,Х, статистику Проверка статистических гипотез можно записать в более удобном для практических расчетов виде

Проверка статистических гипотез

Распределение статистики Проверка статистических гипотез при условии справедливости гипотезы Проверка статистических гипотез также не зависит от гипотетической функции распределения Проверка статистических гипотез (это доказывается точно так же, как и инвариантность распределения статистики критерия Колмогорова) и при увеличении объема выборки сходится к Проверка статистических гипотез-распределению. Поэтому уровень значимости критерия а определяется по критическому значению С приближенной формулой

Проверка статистических гипотез

где А(х) — функция Проверка статистических гипотез-распределения [1, табл. 6.4а]. Если же задан уровень значимости а критерия, то критическое значение С практически совпадает с (1 — а)-квантилью Проверка статистических гипотез-распределения.

Практическая реализация критерия Проверка статистических гипотез происходит в той же последовательности, что и критерия Колмогорова: сначала по выборке Проверка статистических гипотез определяется вариационный ряд Проверка статистических гипотез затем находятся Проверка статистических гипотез и вычисляется значение статистики Проверка статистических гипотез и, наконец, полученное значение Проверка статистических гипотез сравнивается с критическим значением С и либо принимается, либо отвергается гипотеза Проверка статистических гипотез

В литературе иногда критериями Проверка статистических гипотез называют целое семейство критериев, основанных на интегральных расстояниях с различными весовыми функциями.

Критерий хи квадрат

Критерий Проверка статистических гипотез (Пирсона). Критерий Проверка статистических гипотез является аналогом критерия Проверка статистических гипотез для дискретной наблюдаемой величины X, хотя и применяется как в дискретном, так и в непрерывном случае.

Начнем с дискретного случая. Пусть наблюдаемая случайная величина X может принимать только значения Проверка статистических гипотез с неизвестными вероятностями Проверка статистических гипотез Основная гипотеза Проверка статистических гипотез выделяет среди всех распределений случайных величин, принимающих значения Проверка статистических гипотез одно фиксированное распределение, для которого значения вероятностей Проверка статистических гипотез известны и равны Проверка статистических гипотез Обозначим через Проверка статистических гипотез число тех элементов выборки Проверка статистических гипотез которые приняли значение Проверка статистических гипотез Поскольку в силу закона больших чисел наблюденная частота Проверка статистических гипотез с ростом объема выборки п стремится к вероятности Проверка статистических гипотез мы должны признать гипотезу Проверка статистических гипотез справедливой, если все Проверка статистических гипотез мало отличаются от Проверка статистических гипотез Введем теперь статистику

Проверка статистических гипотез

С одной стороны, эта статистика является мерой равномерной близости всех Проверка статистических гипотез с другой стороны, как говорилось в параграфе 4 гл. 1, она асимптотически при Проверка статистических гипотез независимо от гипотетических вероятностей Проверка статистических гипотез имеет Проверка статистических гипотез-распределение с L-1 степенями свободы. Таким образом, критерий Проверка статистических гипотез предписывает принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть, если Проверка статистических гипотез где С — критическое значение критерия.

Из сказанного выше следует, что при заданном С уровень значимости а критерия Проверка статистических гипотез определяется приближенной формулой

Проверка статистических гипотез

где Н(х) — функция Проверка статистических гипотез-распределения с L — 1 степенями свободы [1, табл. 2.1а]. Наоборот, если задан уровень значимости а, то критическое значение С примерно совпадает с Проверка статистических гипотез-квантилью Проверка статистических гипотез Проверка статистических гипотез-распределения [1, табл. 2.2а].

При практической реализации критерия Проверка статистических гипотез нужно следить за тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация Проверка статистических гипотез-распределением распределения статистики Проверка статистических гипотез Обычно считается, что достаточным условием для этого является выполнение неравенств Проверка статистических гипотез при всех l, в противном случае маловероятные значения Проверка статистических гипотез объединяются в одно или присоединяются к другим значениям, причем объединенному значению приписывается суммарная вероятность (разумеется, уменьшается число степеней свободы при определении уровня значимости или критического значения С).

Следует отметить, что при Проверка статистических гипотез критерий Проверка статистических гипотез асимптотически совпадает с параметрическим критерием для проверки основной гипотезы Проверка статистических гипотез против сложной конкурирующей гипотезы Проверка статистических гипотез построенным по методу отношения правдоподобия, хотя эти критерии и основаны на совершенно различных идеях.

В общем случае (не обязательно дискретной наблюдаемой величины X) поступают следующим образом. Сначала всю прямую разбивают на L непересекающихся интервалов Проверка статистических гипотез Затем определяют гипотетические вероятности Проверка статистических гипотез попадания в интервал Проверка статистических гипотез и числа Проверка статистических гипотез элементов выборки, попавших в эти интервалы. Наконец, вычисляют значение статистики

Проверка статистических гипотез

и сравнивают его с критическим значением С. Как и в дискретном случае, маловероятные интервалы объединяют. Разумеется, для того чтобы улучшить качество критерия Проверка статистических гипотез (увеличить его мощность), необходимо уменьшать интервалы разбиения, однако этому препятствует ограничение на числа попавших в каждый интервал наблюдений.

При применении критерия Проверка статистических гипотез удобно пользоваться полигоном частот или гистограммой (см. параграф 3 гл. 1).

Часто требуется проверить не совпадение теоретической функции распределения F(x) с известной функцией распределения Проверка статистических гипотез а принадлежность F(x) заданному параметрическому семейству Проверка статистических гипотез функций распределения, зависящему от k-мерного неизвестного параметра Проверка статистических гипотез т.е. разделить сложные непараметрические гипотезы Проверка статистических гипотезПроверка статистических гипотез Для того чтобы воспользоваться вышеописанными критериями, нужно из семейства Проверка статистических гипотез выделить ту функцию распределения Проверка статистических гипотез с которой уже и будет производиться сравнение эмпирической функции распределения F(x) выборки Проверка статистических гипотез

Поэтому сначала, предполагая, что верна основная гипотеза Проверка статистических гипотез находят оценку Проверка статистических гипотез неизвестного векторного параметра Проверка статистических гипотез а затем, полагая Проверка статистических гипотез с помощью выбранного критерия согласия проверяют простую основную гипотезу Проверка статистических гипотез против сложной конкурирующей гипотезы Проверка статистических гипотез Ясно, что в качестве оценки Проверка статистических гипотез лучше всего брать такое значение параметра Проверка статистических гипотез которое доставляло бы минимальное значение статистике соответствующего критерия (см. параграф 5 гл.2). Однако эти естественные оценки, как правило, весьма сложны в вычислительном плане, и поэтому обычно пользуются более простыми оценками (полученными методами моментов или максимального правдоподобия).

Скажем еще несколько слов об уровне значимости критериев согласия при проверке сложной гипотезы Проверка статистических гипотез Вообще говоря, даже асимптотически при Проверка статистических гипотез уровень значимости критерия будет зависеть и от семейства Проверка статистических гипотез и от выбранной оценки Проверка статистических гипотез и даже от истинного значения неизвестного параметра Проверка статистических гипотез Обычно на практике для критериев Колмогорова и Проверка статистических гипотез считают уровень значимости таким же, как и в случае простой гипотезы Проверка статистических гипотез При использовании достаточно «хороших» оценок (например, оценки максимального правдоподобия) истинный уровень значимости, как правило, будет даже меньше подсчитанного таким образом. Что касается критерия Проверка статистических гипотез то Для него при определении уровня значимости просто уменьшают число степеней свободы Проверка статистических гипотез-распределения на число неизвестных параметров k. Здесь мы делаем обратную ошибку: объявляем уровень значимости меньшим, чем он есть на самом деле, правда, обычно несущественно.

Отметим, что в последнее время в специальной литературе появились работы, в которых выводятся асимптотические разложения уровней значимости (и даже мощностей при «близких» гипотезах) критериев по степеням Проверка статистических гипотез причем для некоторых критериев и типов распределений вычисляются также значения первых коэффициентов этих разложений.

Пример:

Проверим с помощью критерия Колмогорова гипотезу Проверка статистических гипотез том, что проекция X вектора скорости молекулы водорода на ось координат (см. пример 1 из гл. 1) распределена по нормальному закону. Проверку произведем для уровня значимости Проверка статистических гипотез Параметры нормального закона не заданы, значит, мы имеем дело со сложной гипотезой Проверка статистических гипотез и сначала должны оценить среднее Проверка статистических гипотез дисперсию Проверка статистических гипотез Поскольку мы будем пользоваться критерием Колмогорова, хотелось бы оценки Проверка статистических гипотез неизвестных параметров Проверка статистических гипотез выбрать таким образом, чтобы они доставляли минимальное значение статистики критерия Колмогорова

Проверка статистических гипотез

где Проверка статистических гипотез — вариационный ряд выборки Проверка статистических гипотез приведенный в табл. 3 гл. 1, а Проверка статистических гипотез — функция распределения нормального закона с параметрами Проверка статистических гипотез Однако искать минимум р как функции Проверка статистических гипотез — весьма сложная в вычислительном плане задача, так как Ф(x) даже не выражается в элементарных функциях. Поэтому в качестве оценок Проверка статистических гипотез используем оценки максимального правдоподобия Проверка статистических гипотез (см. примеры 8 из гл. 1 и 15 из гл.2). Теперь с помощью критерия Колмогорова будем проверять простую гипотезу Проверка статистических гипотез Вычислив сначала Проверка статистических гипотез и воспользовавшись равенством Проверка статистических гипотез последовательно находим затем значения Проверка статистических гипотез (табл.2). Наконец, определяя значение статистики критерия Колмогорова

Проверка статистических гипотез

(максимальное значение Проверка статистических гипотез равно 0.06) и сравнивая его с 0,95-квантилью распределения Колмогорова Проверка статистических гипотез ([1], с. 346), видим, что Проверка статистических гипотез Значит, мы должны принять гипотезу Проверка статистических гипотез и считать распределение проекции вектора скорости молекулы водорода нормальным.

Пример:

Проверим ту же гипотезу Проверка статистических гипотез о нормальности проекции вектора скорости молекулы водорода с тем же уровнем значимости Проверка статистических гипотез но теперь для проверки Проверка статистических гипотез воспользуемся критерием Проверка статистических гипотез Поскольку и в этом случае мы будем пользоваться оценками максимального правдоподобия неизвестных среднего Проверка статистических гипотез и дисперсии Проверка статистических гипотез нормального закона, то все этапы вычислений, вплоть до нахождения Проверка статистических гипотез для критериев Колмогорова и Проверка статистических гипотез полностью совпадают. Остается только определить значение статистики Проверка статистических гипотез (см. табл. 2):

Проверка статистических гипотез

и сравнить найденное значение Проверка статистических гипотез с 0,95-квантилью Проверка статистических гипотез-распределения Проверка статистических гипотез Таким образом, критерий Проверка статистических гипотез также подтверждает справедливость гипотезы Проверка статистических гипотез

Пример:

Воспользовавшись выборкой из примера 2 гл. 1, проверим с уровнем значимости Проверка статистических гипотез гипотезу Проверка статистических гипотез о том, что число X регистрируемых ежесекундно счетчиком Гейгера частиц имеет распределение Пуассона. Случайная величина X, распределенная по закону Пуассона, принимает значения Проверка статистических гипотез с вероятностями

Проверка статистических гипотез

где Проверка статистических гипотез — математическое ожидание X (см. часть 1, гл.5, параграф 3). Ввиду дискретности случайной величины X для проверки гипотезы Проверка статистических гипотез следует использовать критерий Проверка статистических гипотез Поскольку значение параметра Проверка статистических гипотез неизвестно, мы имеем дело со сложной гипотезой Проверка статистических гипотез и должны сначала оценить Проверка статистических гипотез Воспользовавшись методом моментов, получаем оценку

Проверка статистических гипотез

(читателю предоставляется возможность убедиться, что оценка максимального правдоподобия также будет совпадать с выборочным средним). В табл. 3 выписаны гипотетические вероятности

Проверка статистических гипотез

а также числа Проверка статистических гипотез элементов выборки, принявших значение l, взятые из статистического ряда выборки (табл. 6 гл. 1). Из табл. 3 видно, что числа элементов выборки, принявших значения 0, 6, 7, 8 и т.д., меньше 5. Поэтому объединим

Проверка статистических гипотез

нулевой и первый столбцы, а шестой и последующие столбцы присоединим к пятому (табл. 4). Производя последовательно вычисления, представленные в табл. 4, определяем значение статистики

Проверка статистических гипотез

Так как число столбцов L = 5, а число неизвестных параметров k=1, то Проверка статистических гипотез-распределение, используемое для приближенного нахождения критического значения С, имеет Проверка статистических гипотез степени свободы. В [I, с. 167] находим 0,9-квантиль Проверка статистических гипотез-распределения с тремя степенями свободы Проверка статистических гипотез Сравнивая значение Проверка статистических гипотезконстатируем, что следует признать справедливость гипотезы Проверка статистических гипотезо пуассоновости распределения регистрируемых счетчиком Гейгера частиц.

Проверка статистических гипотез

Пример:

Еще раз обратимся к проверке гипотезы Проверка статистических гипотез о нормальности проекции X вектора скорости молекулы водорода (см. примеры 7 и 8). Воспользуемся критерием Проверка статистических гипотез Для этого разобьем всю прямую на 8 интервалов: Проверка статистических гипотез Однако поскольку в первые два интервала попало всего одно наблюдение (см. табл. 7 гл. 1), объединим их с третьим интервалом. Аналогично седьмой и восьмой интервалы присоединим к шестому. Окончательно получим 4 интервала с числами Проверка статистических гипотез попавших в них наблюдений, приведенными в табл. 5. Поскольку оценки Проверка статистических гипотез неизвестных среднего Проверка статистических гипотез и дисперсии Проверка статистических гипотез нами уже получены, найдем, воспользовавшись [1, с. 112-113], гипотетические вероятности Проверка статистических гипотез попадания наблюдаемой величины X в рассматриваемые интервалы:

Проверка статистических гипотез

Проверка статистических гипотез

Теперь определим значение статистики

Проверка статистических гипотез

Число степеней свободы Проверка статистических гипотезраспределения равно единице (число интервалов наблюдения L = 4, число неизвестных параметров k= 2). Сравнивая полученное значение Проверка статистических гипотезс 0,95-квантилью Проверка статистических гипотез-распределения с одной степенью свободы Проверка статистических гипотез [1, с. 167], видим, что и критерий Проверка статистических гипотез подтверждает гипотезу Проверка статистических гипотез

Критерии однородности двух выборок

В этом параграфе мы обратимся к постановке задачи, несколько отличной от изучавшихся ранее. А именно, будем рассматривать две выборки и проверять гипотезу о том, что эти выборки извлечены из одной и той же генеральной совокупности. Итак, пусть мы имеем независимые выборки: Проверка статистических гипотез произведенную из генеральной совокупности с неизвестной теоретической функцией распределенияПроверка статистических гипотез произведенную из генеральной совокупности с неизвестной теоретической функцией распределения Проверка статистических гипотезПроверяются две сложные непараметрические гипотезы: основная Проверка статистических гипотез и конкурирующая Проверка статистических гипотез Будем предполагать, что функции Проверка статистических гипотезнепрерывны. Поскольку справедливость гипотезы Проверка статистических гипотез по сути дела, означает, что выборки Проверка статистических гипотез произведены из одной и той же генеральной совокупности, критерии для проверки гипотез Проверка статистических гипотез называются критериями однородности двух выборок. Приведем два таких критерия.

Критерий Смирнова

Критерий Смирнова использует ту же идею, что и критерий Колмогорова, но только если в критерии Колмогорова эмпирическая функция распределения сравнивается с гипотетической, то в критерии Смирнова между собой сравниваются две эмпирические функции распределения. Статистика критерия Смирнова задается выражением

Проверка статистических гипотез

где Проверка статистических гипотез— эмпирические функции распределения, построенные по выборкам Проверка статистических гипотез соответственно. Критерий Смирнова предписывает принять гипотезу Проверка статистических гипотез если р < С, и отвергнуть в противном случае.

При условии справедливости гипотезы Проверка статистических гипотез распределение статистики р (а значит, и уровень значимости а) не зависит от распределения Проверка статистических гипотез (доказательство этого факта слово в слово повторяет доказательство инвариантности статистики критерия Колмогорова). При малых объемах выборок Проверка статистических гипотез критические значения С для заданных уровней значимости (размеров) критерия Проверка статистических гипотез приведены в табл. 6.5а [1]. При Проверка статистических гипотез распределение статистики р сходится к распределению Колмогорова Проверка статистических гипотез что позволяет приближенно вычислять уровень значимости критерия Смирнова по формуле Проверка статистических гипотез (распределение Колмогорова Проверка статистических гипотез приведено в табл. 6.1 [1]) и, наоборот, определять критическое значение С при заданном уровне значимости Проверка статистических гипотез как (1 — Проверка статистических гипотез)-квантиль распределения Колмогорова Проверка статистических гипотез

Пример:

На двух реакторах были проведены сходные эксперименты, в результате которых возникли новые частицы. Для анализа экспериментальных данных были замерены энергии п = 631 частицы, полученной на первом реакторе, и m = 839 частиц, полученных на втором реакторе, и построены эмпирические функции распределения энергии частиц Проверка статистических гипотез Когда Проверка статистических гипотез сравнили, оказалось, что Проверка статистических гипотез Проверим с помощью критерия Смирнова уровня значимости (размера) Проверка статистических гипотез гипотезу Проверка статистических гипотез о том, что на обоих реакторах возникали одни и те же частицы. Для этого вычислим значение статистики критерия

Проверка статистических гипотез

и сравним полученное значение р с 0,8-квантилью распределения Колмогорова Проверка статистических гипотез Поскольку Проверка статистических гипотез то у нас есть основания считать гипотезу Проверка статистических гипотез справедливой.

Критерий Вилкоксона

Образуем из выборок Проверка статистических гипотез и Проверка статистических гипотез один общий вариационный ряд (табл.6) и отметим последовательные порядковые номера (ранги) Проверка статистических гипотез элементов выборки Проверка статистических гипотез в общем вариационном ряду (в табл.6 рангами Проверка статистических гипотез

Образуем из выборок Проверка статистических гипотез и Проверка статистических гипотез один общий вариационный ряд (табл.6) и отметим последовательные порядковые номера (ранги) Проверка статистических гипотез элементов выборки Проверка статистических гипотез в общем вариационном ряду (в табл.6 рангами Проверка статистических гипотез

Проверка статистических гипотез

Критерии, позволяющие только на основе рангов Проверка статистических гипотез принимать или отвергать гипотезу Проверка статистических гипотез называются ранговыми критериями. Их достоинством является чрезвычайная простота.

Поскольку при условии справедливости гипотезы Проверка статистических гипотез все возможные комбинации рангов Проверка статистических гипотез равновероятны (всего таких комбинаций Проверка статистических гипотез уровень значимости (размер) рангового критерия не зависит от распределения Проверка статистических гипотез

Обычно в качестве статистики рангового критерия используют сумму Проверка статистических гипотез некоторая функция, определенная для всех Проверка статистических гипотез Мы рассмотрим один тип ранговых критериев — критерий Вилкоксона.

Пусть Проверка статистических гипотез — одна из Проверка статистических гипотез возможных перестановок чисел Проверка статистических гипотез (т.е. расположенные в произвольном порядке числа Проверка статистических гипотез Положим Проверка статистических гипотез (см. табл.6). Статистика критерия Вилкоксона задается формулой

Проверка статистических гипотез

Односторонний критерий Вилкоксона предписывает принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть, если Проверка статистических гипотез где С — критическое значение одностороннего критерия Вилкоксона.

При использовании двустороннего критерия Вилкоксона мы должны принять гипотезу Проверка статистических гипотез если Проверка статистических гипотез и отвергнуть ее, если либо Проверка статистических гипотез Нижнее Проверка статистических гипотез и верхнее Проверка статистических гипотез критические значения двустороннего критерия Вилкоксона связаны между собой соотношением Проверка статистических гипотез

Выбор перестановки Проверка статистических гипотез осуществляется до опыта таким образом, чтобы по возможности наилучшим образом разделить выборки Проверка статистических гипотез при наименее благоприятном соотношении между теоретическими функциями Проверка статистических гипотез или, иными словами, чтобы при заданном соотношении между Проверка статистических гипотез мощность критерия была бы максимальна. Так, если к наиболее опасным последствиям ведет отождествление наблюдаемых величин X и Y в случае, когда У систематически меньше X (т.е. Проверка статистических гипотез при всех x), то естественно положить Проверка статистических гипотез и воспользоваться односторонним критерием Вилкоксона. Если же одинаково пагубными представляются и случай X систематически меньше Y, и случай Y систематически меньше X (т.е. одновременно для всех х либо Проверка статистических гипотез либо Проверка статистических гипотез то опять-таки нужно взять Проверка статистических гипотез но использовать двусторонний критерий Вилкоксона. Или еще пример: из каких-то соображений стало известно, что наблюдаемые величины X и У в среднем приблизительно одинаковы Проверка статистических гипотез и нужно проверить основную гипотезу Проверка статистических гипотез разброс случайных величин X и Y одинаков против конкурирующей гипотезы Проверка статистических гипотез разброс Y больше разброса X. При выполнении гипотезы Проверка статистических гипотез наблюдаемые значения величины Y (выборка Проверка статистических гипотез будут в основном сосредоточиваться в начале и в конце общего вариационного ряда и весьма разумным представляется выбор перестановки Проверка статистических гипотез и т.д.

Если верна основная гипотеза Проверка статистических гипотез то распределение статистики критерия Вилкоксона зависит лишь от объемов выборок п и т и не зависит от конкретно используемой перестановки Проверка статистических гипотез Поэтому в соответствии с принципом классической вероятности уровень значимости (размер) а одностороннего критерия Вилкоксона для критического значения С определяется как число тех сочетаний Проверка статистических гипотез элементов по т, для которых Проверка статистических гипотез отнесенного к общему числу сочетаний Проверка статистических гипотез Поскольку обычно, наоборот, по уровню значимости а определяют критическое значение С, то именно такая таблица приведена в [1] (табл. 6.8).

Уровень значимости двустороннего критерия Вилкоксона находится как удвоенный уровень значимости одностороннего критерия с Проверка статистических гипотез Для вычисления критических значений Проверка статистических гипотез двустороннего критерия с уровнем значимости а мы должны по табл. 6.8 определить критическое значение С одностороннего критерия с уровнем значимости Проверка статистических гипотез а затем положить Проверка статистических гипотез

Наконец, если объем хотя бы одной из выборок Проверка статистических гипотез или Проверка статистических гипотез велик, можно воспользоваться асимптотической нормальностью статистики Вилкоксона Проверка статистических гипотез со средним Проверка статистических гипотез и дисперсией Проверка статистических гипотез в этом случае при заданном уровне значимости а следует положить для одностороннего критерия

Проверка статистических гипотез

а для двустороннего —

Проверка статистических гипотез

где Проверка статистических гипотез — а-квантиль стандартного нормального закона ([1], табл. 1.3).

Пример:

Для сравнительного анализа надежности крепежных болтов, выпускаемых двумя заводами, были проверены на разрыв п=24 изделия первого завода и m= 20 изделий второго. Силы натяжения Проверка статистических гипотез при которых произошли разрывы изделий первого и второго заводов, приведены в табл.7 и 8.

Проверка статистических гипотез

Проверка статистических гипотез

Проверим с помощью критерия Вилкоксона уровня значимости (размера) Проверка статистических гипотез гипотезу Проверка статистических гипотез о том, что надежность изделий обоих заводов одинакова. Для того чтобы воспользоваться критерием Вилкоксона, нужно сначала задать перестановку Проверка статистических гипотез Анализируя условия задачи, видим, что наименее благоприятным будет случай, когда надежность болтов, выпускаемых одним заводом, систематически меньше надежности аналогичных изделий другого завода, и, значит, в качестве перестановки Проверка статистических гипотез естественно выбрать перестановку (1,2,…,44), причем из-за отсутствия априорных предпосылок предпочесть изделия какого-либо завода мы должны воспользоваться двусторонним критерием Вилкоксона. Образуем теперь общий вариационный ряд выборок Проверка статистических гипотез (табл. 9) и определим значение статистики w критерия Вилкоксона

Проверка статистических гипотез

Так как мы используем двусторонний критерий Вилкоксона, то нижнее критическое значение Проверка статистических гипотез при уровне значимости а = 0,01 совпадает с критическим значением С = 341 одностороннего критерия Вилкоксона, имеющего уровень

Проверка статистических гипотез

значимости 0,005 [1, с. 360], а верхнее критическое значение Проверка статистических гипотезопределяется формулой

Проверка статистических гипотез

Сравнивая значение статистики Проверка статистических гипотез с критическими значениями Проверка статистических гипотез видим, что Проверка статистических гипотез Таким образом, гипотезу Проверка статистических гипотез об одинаковой надежности крепежных болтов, выпускаемых обоими заводами, нужно признать не соответствующей результатам проверки, а для практических потребностей рекомендовать изделия второго завода как более надежные.

Статистическая гипотеза и как её проверить

Пусть по выборке объема n получено эмпирическое распределение с равноотстоящими вариантами:

Проверка статистических гипотез

По данным наблюдения выдвигают гипотезу о законе распределения генеральной совокупности, например, предполагают, что генеральная совокупность распределена равномерно или нормально. Такие гипотезы называются статистическими. Затем для тех же объектов, которые попали в выборку, вычисляют частоты, уже исходя из теоретической гипотезы. В результате получаются частоты (их называют выравнивающими частотами), которые, вообще говоря, отличаются от наблюдавшихся. Как определить, правильно или нет выдвинута гипотеза, т. е. случайны ли расхождения наблюдавшихся и выравнивающих частот или эти расхождения являются следствием неправильности гипотезы? Для решения этого вопроса применяют критерии согласия эмпирических наблюдений к выдвинутой гипотезе. Имеется несколько критериев согласия: Проверка статистических гипотез («хи-квадрат»)

Пирсона, критерий Колмогорова, критерий Смирнова и др. Мы познакомимся с критерием согласия Проверка статистических гипотез («хи-квадрат») Пирсона.

Предположим, что на основе приведенного выше распределения выдвинута гипотеза Н: генеральная совокупность имеет нормальное распределение. Для вычисления выравнивающих частот поступают следующим образом:
1) находят значения Проверка статистических гипотез

2) выравнивающие частоты Проверка статистических гипотез, ищут по формуле

Проверка статистических гипотез

где n — сумма наблюдавшихся частот; h — разность между двумя соседними вариантами; Проверка статистических гипотез

В результате получают множество выравнивающих частот:

Проверка статистических гипотез

Обозначим через Проверка статистических гипотез сумму квадратов разностей между эмпирическими и выравнивающими частотами, деленных на соответствующие выравнивающие частоты:

Проверка статистических гипотез

(это обозначение и для распределения Проверка статистических гипотез)

Для данной выборки по формуле (4.16) находим значение случайной величины Проверка статистических гипотез. Обозначим его через Проверка статистических гипотез Затем определяется число k = m — 3, называемое числом степеней свободы, где m — число различных вариант выборки.

Теперь проверка гипотезы Н проводится так. Задаются достаточно малой вероятностью р, называемой уровнем значимости (обычно в качестве р берут либо 0,05, либо 0,01, либо 0,001). Считается, что событие с такой вероятностью является практически невозможным. По таблице значений Проверка статистических гипотез (приложение 6, здесь речь идет о так называемых критических точках распределения Проверка статистических гипотез) по заданному уровню значимости р и числу степеней свободы k находят значение Проверка статистических гипотез Если окажется, что Проверка статистических гипотез тo гипотеза Н отвергается на уровне значимости р, так как произошло событие, которое не должно было произойти при верной гипотезе Н; если же Проверка статистических гипотез (р; k), то Н принимается на уровне значимости р.

Пример:

При уровне значимости 0,05 проверим гипотезу о нормальном распределении генеральной совокупности, если известны:

эмпирические частоты… 6 13 38 74 106 85 30 14

теоретические частоты… 3 14 42 82 99 76 37 13

Вычислим Проверка статистических гипотез, Для чего составим расчетную таблицу:

Проверка статистических гипотез

Найдем число степеней свободы, учитывая, что число различных вариант m = 8. Имеем: k = 8-3 = 5. По уровню значимости р = 0,05 и числу степеней свободы k = 5 по таблице значений Проверка статистических гипотез (приложение 6) находим: Проверка статистических гипотез (0,05; 5) = 11,1. Так как Проверка статистических гипотез (0,05; 5), нет оснований отвергнуть гипотезу H.

Расчет прямых регрессии

Пусть проведено n опытов, в результате которых получены следующие значения величин Проверка статистических гипотез За приближенные значения М(Х), M(Y), D(X) и D(Y) принимают их выборочные значения:

Проверка статистических гипотез

Оценкой для ц служит величина

Проверка статистических гипотез

Заменяя в соотношениях (3.15), (3.17), (3.20) величины Проверка статистических гипотез их выборочными значениями Проверка статистических гипотез получим приближенные значения коэффициента корреляции и коэффициентов регрессии:

Проверка статистических гипотез

Подставляя в уравнения (3.18) и (3.19) вместо a, b, p(Y/X) и p(X/Y) их приближенные значения, получим выборочные уравнения прямых регрессий:

Проверка статистических гипотез

Пример:

Найдем выборочное уравнение прямой регрессии Y на X по данным n =10 наблюдений. Результаты наблюдений и результаты вычислений собраны в таблице (С =70 и С’= 9,0 — ложные нули).

Проверка статистических гипотез

Вычисляем:

Проверка статистических гипотез

Уравнение искомой прямой имеет вид

Проверка статистических гипотез

или

Проверка статистических гипотез

Решение заданий и задач по предметам:

  • Теория вероятностей
  • Математическая статистика

Дополнительные лекции по теории вероятностей:

  1. Случайные события и их вероятности
  2. Случайные величины
  3. Функции случайных величин
  4. Числовые характеристики случайных величин
  5. Законы больших чисел
  6. Статистические оценки
  7. Статистическое исследование зависимостей
  8. Теории игр
  9. Вероятность события
  10. Теорема умножения вероятностей
  11. Формула полной вероятности
  12. Теорема о повторении опытов
  13. Нормальный закон распределения
  14. Определение законов распределения случайных величин на основе опытных данных
  15. Системы случайных величин
  16. Нормальный закон распределения для системы случайных величин
  17. Вероятностное пространство
  18. Классическое определение вероятности
  19. Геометрическая вероятность
  20. Условная вероятность
  21. Схема Бернулли
  22. Многомерные случайные величины
  23. Предельные теоремы теории вероятностей
  24. Оценки неизвестных параметров
  25. Генеральная совокупность

This article is about erroneous outcomes of statistical tests. For closely related concepts in binary classification and testing generally, see false positives and false negatives.

In statistical hypothesis testing, a type I error is the mistaken rejection of a null hypothesis that is actually true. A type I error is also known as a «false positive» finding or conclusion; example: «an innocent person is convicted». A type II error is the failure to reject a null hypothesis that is actually false. A type II error is also known as a «false negative» finding or conclusion; example: «a guilty person is not convicted».[1] Much of statistical theory revolves around the minimization of one or both of these errors, though the complete elimination of either is a statistical impossibility if the outcome is not determined by a known, observable causal process.
By selecting a low threshold (cut-off) value and modifying the alpha (α) level, the quality of the hypothesis test can be increased.[citation needed] The knowledge of type I errors and type II errors is widely used in medical science, biometrics and computer science.[clarification needed]

Intuitively, type I errors can be thought of as errors of commission (i.e., the researcher unluckily concludes that something is the fact). For instance, consider a study where researchers compare a drug with a placebo. If the patients who are given the drug get better than the patients given the placebo by chance, it may appear that the drug is effective, but in fact the conclusion is incorrect.
In reverse, type II errors are errors of omission. In the example above, if the patients who got the drug did not get better at a higher rate than the ones who got the placebo, but this was a random fluke, that would be a type II error. The consequence of a type II error depends on the size and direction of the missed determination and the circumstances. An expensive cure for one in a million patients may be inconsequential even if it truly is a cure.

Definition[edit]

Statistical background[edit]

In statistical test theory, the notion of a statistical error is an integral part of hypothesis testing. The test goes about choosing about two competing propositions called null hypothesis, denoted by H0 and alternative hypothesis, denoted by H1. This is conceptually similar to the judgement in a court trial. The null hypothesis corresponds to the position of the defendant: just as he is presumed to be innocent until proven guilty, so is the null hypothesis presumed to be true until the data provide convincing evidence against it. The alternative hypothesis corresponds to the position against the defendant. Specifically, the null hypothesis also involves the absence of a difference or the absence of an association. Thus, the null hypothesis can never be that there is a difference or an association.

If the result of the test corresponds with reality, then a correct decision has been made. However, if the result of the test does not correspond with reality, then an error has occurred. There are two situations in which the decision is wrong. The null hypothesis may be true, whereas we reject H0. On the other hand, the alternative hypothesis H1 may be true, whereas we do not reject H0. Two types of error are distinguished: type I error and type II error.[2]

Type I error[edit]

The first kind of error is the mistaken rejection of a null hypothesis as the result of a test procedure. This kind of error is called a type I error (false positive) and is sometimes called an error of the first kind. In terms of the courtroom example, a type I error corresponds to convicting an innocent defendant.

Type II error[edit]

The second kind of error is the mistaken failure to reject the null hypothesis as the result of a test procedure. This sort of error is called a type II error (false negative) and is also referred to as an error of the second kind. In terms of the courtroom example, a type II error corresponds to acquitting a criminal.[3]

Crossover error rate[edit]

The crossover error rate (CER) is the point at which type I errors and type II errors are equal. A system with a lower CER value provides more accuracy than a system with a higher CER value.

False positive and false negative[edit]

In terms of false positives and false negatives, a positive result corresponds to rejecting the null hypothesis, while a negative result corresponds to failing to reject the null hypothesis; «false» means the conclusion drawn is incorrect. Thus, a type I error is equivalent to a false positive, and a type II error is equivalent to a false negative.

Table of error types[edit]

Tabularised relations between truth/falseness of the null hypothesis and outcomes of the test:[4]

Table of error types Null hypothesis (H0) is
True False
Decision
about null
hypothesis (H0)
Fail to reject Correct inference
(true negative)

(probability = 1−α)

Type II error
(false negative)
(probability = β)
Reject Type I error
(false positive)
(probability = α)
Correct inference
(true positive)

(probability = 1−β)

Error rate[edit]

The results obtained from negative sample (left curve) overlap with the results obtained from positive samples (right curve). By moving the result cutoff value (vertical bar), the rate of false positives (FP) can be decreased, at the cost of raising the number of false negatives (FN), or vice versa (TP = True Positives, TPR = True Positive Rate, FPR = False Positive Rate, TN = True Negatives).

A perfect test would have zero false positives and zero false negatives. However, statistical methods are probabilistic, and it cannot be known for certain whether statistical conclusions are correct. Whenever there is uncertainty, there is the possibility of making an error. Considering this nature of statistics science, all statistical hypothesis tests have a probability of making type I and type II errors.[citation needed]

  • The type I error rate is the probability of rejecting the null hypothesis given that it is true. The test is designed to keep the type I error rate below a prespecified bound called the significance level, usually denoted by the Greek letter α (alpha) and is also called the alpha level. Usually, the significance level is set to 0.05 (5%), implying that it is acceptable to have a 5% probability of incorrectly rejecting the true null hypothesis.[5]
  • The rate of the type II error is denoted by the Greek letter β (beta) and related to the power of a test, which equals 1−β.[citation needed]

These two types of error rates are traded off against each other: for any given sample set, the effort to reduce one type of error generally results in increasing the other type of error.[citation needed]

The quality of hypothesis test[edit]

The same idea can be expressed in terms of the rate of correct results and therefore used to minimize error rates and improve the quality of hypothesis test. To reduce the probability of committing a type I error, making the alpha value more stringent is quite simple and efficient. To decrease the probability of committing a type II error, which is closely associated with analyses’ power, either increasing the test’s sample size or relaxing the alpha level could increase the analyses’ power.[citation needed] A test statistic is robust if the type I error rate is controlled.

Varying different threshold (cut-off) value could also be used to make the test either more specific or more sensitive, which in turn elevates the test quality. For example, imagine a medical test, in which an experimenter might measure the concentration of a certain protein in the blood sample. The experimenter could adjust the threshold (black vertical line in the figure) and people would be diagnosed as having diseases if any number is detected above this certain threshold. According to the image, changing the threshold would result in changes in false positives and false negatives, corresponding to movement on the curve.[citation needed]

Example[edit]

Since in a real experiment it is impossible to avoid all type I and type II errors, it is important to consider the amount of risk one is willing to take to falsely reject H0 or accept H0. The solution to this question would be to report the p-value or significance level α of the statistic. For example, if the p-value of a test statistic result is estimated at 0.0596, then there is a probability of 5.96% that we falsely reject H0. Or, if we say, the statistic is performed at level α, like 0.05, then we allow to falsely reject H0 at 5%. A significance level α of 0.05 is relatively common, but there is no general rule that fits all scenarios.

Vehicle speed measuring[edit]

The speed limit of a freeway in the United States is 120 kilometers per hour (75 mph). A device is set to measure the speed of passing vehicles. Suppose that the device will conduct three measurements of the speed of a passing vehicle, recording as a random sample X1, X2, X3. The traffic police will or will not fine the drivers depending on the average speed {\bar {X}}. That is to say, the test statistic

{\displaystyle T={\frac {X_{1}+X_{2}+X_{3}}{3}}={\bar {X}}}

In addition, we suppose that the measurements X1, X2, X3 are modeled as normal distribution N(μ,4). Then, T should follow N(μ,4/3) and the parameter μ represents the true speed of passing vehicle. In this experiment, the null hypothesis H0 and the alternative hypothesis H1 should be

H0: μ=120     against      H1: μ>120.

If we perform the statistic level at α=0.05, then a critical value c should be calculated to solve

{\displaystyle P\left(Z\geqslant {\frac {c-120}{\frac {2}{\sqrt {3}}}}\right)=0.05}

According to change-of-units rule for the normal distribution. Referring to Z-table, we can get

{\displaystyle {\frac {c-120}{\frac {2}{\sqrt {3}}}}=1.645\Rightarrow c=121.9}

Here, the critical region. That is to say, if the recorded speed of a vehicle is greater than critical value 121.9, the driver will be fined. However, there are still 5% of the drivers are falsely fined since the recorded average speed is greater than 121.9 but the true speed does not pass 120, which we say, a type I error.

The type II error corresponds to the case that the true speed of a vehicle is over 120 kilometers per hour but the driver is not fined. For example, if the true speed of a vehicle μ=125, the probability that the driver is not fined can be calculated as

{\displaystyle P=(T<121.9|\mu =125)=P\left({\frac {T-125}{\frac {2}{\sqrt {3}}}}<{\frac {121.9-125}{\frac {2}{\sqrt {3}}}}\right)=\phi (-2.68)=0.0036}

which means, if the true speed of a vehicle is 125, the driver has the probability of 0.36% to avoid the fine when the statistic is performed at level α=0.05, since the recorded average speed is lower than 121.9. If the true speed is closer to 121.9 than 125, then the probability of avoiding the fine will also be higher.

The tradeoffs between type I error and type II error should also be considered. That is, in this case, if the traffic police do not want to falsely fine innocent drivers, the level α can be set to a smaller value, like 0.01. However, if that is the case, more drivers whose true speed is over 120 kilometers per hour, like 125, would be more likely to avoid the fine.

Etymology[edit]

In 1928, Jerzy Neyman (1894–1981) and Egon Pearson (1895–1980), both eminent statisticians, discussed the problems associated with «deciding whether or not a particular sample may be judged as likely to have been randomly drawn from a certain population»:[6] and, as Florence Nightingale David remarked, «it is necessary to remember the adjective ‘random’ [in the term ‘random sample’] should apply to the method of drawing the sample and not to the sample itself».[7]

They identified «two sources of error», namely:

(a) the error of rejecting a hypothesis that should have not been rejected, and
(b) the error of failing to reject a hypothesis that should have been rejected.

In 1930, they elaborated on these two sources of error, remarking that:

…in testing hypotheses two considerations must be kept in view, we must be able to reduce the chance of rejecting a true hypothesis to as low a value as desired; the test must be so devised that it will reject the hypothesis tested when it is likely to be false.

In 1933, they observed that these «problems are rarely presented in such a form that we can discriminate with certainty between the true and false hypothesis» . They also noted that, in deciding whether to fail to reject, or reject a particular hypothesis amongst a «set of alternative hypotheses», H1, H2…, it was easy to make an error:

…[and] these errors will be of two kinds:

(I) we reject H0 [i.e., the hypothesis to be tested] when it is true,[8]
(II) we fail to reject H0 when some alternative hypothesis HA or H1 is true. (There are various notations for the alternative).

In all of the papers co-written by Neyman and Pearson the expression H0 always signifies «the hypothesis to be tested».

In the same paper they call these two sources of error, errors of type I and errors of type II respectively.[9]

[edit]

Null hypothesis[edit]

It is standard practice for statisticians to conduct tests in order to determine whether or not a «speculative hypothesis» concerning the observed phenomena of the world (or its inhabitants) can be supported. The results of such testing determine whether a particular set of results agrees reasonably (or does not agree) with the speculated hypothesis.

On the basis that it is always assumed, by statistical convention, that the speculated hypothesis is wrong, and the so-called «null hypothesis» that the observed phenomena simply occur by chance (and that, as a consequence, the speculated agent has no effect) – the test will determine whether this hypothesis is right or wrong. This is why the hypothesis under test is often called the null hypothesis (most likely, coined by Fisher (1935, p. 19)), because it is this hypothesis that is to be either nullified or not nullified by the test. When the null hypothesis is nullified, it is possible to conclude that data support the «alternative hypothesis» (which is the original speculated one).

The consistent application by statisticians of Neyman and Pearson’s convention of representing «the hypothesis to be tested» (or «the hypothesis to be nullified») with the expression H0 has led to circumstances where many understand the term «the null hypothesis» as meaning «the nil hypothesis» – a statement that the results in question have arisen through chance. This is not necessarily the case – the key restriction, as per Fisher (1966), is that «the null hypothesis must be exact, that is free from vagueness and ambiguity, because it must supply the basis of the ‘problem of distribution,’ of which the test of significance is the solution.»[10] As a consequence of this, in experimental science the null hypothesis is generally a statement that a particular treatment has no effect; in observational science, it is that there is no difference between the value of a particular measured variable, and that of an experimental prediction.[citation needed]

Statistical significance[edit]

If the probability of obtaining a result as extreme as the one obtained, supposing that the null hypothesis were true, is lower than a pre-specified cut-off probability (for example, 5%), then the result is said to be statistically significant and the null hypothesis is rejected.

British statistician Sir Ronald Aylmer Fisher (1890–1962) stressed that the «null hypothesis»:

… is never proved or established, but is possibly disproved, in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis.

— Fisher, 1935, p.19

Application domains[edit]

Medicine[edit]

In the practice of medicine, the differences between the applications of screening and testing are considerable.

Medical screening[edit]

Screening involves relatively cheap tests that are given to large populations, none of whom manifest any clinical indication of disease (e.g., Pap smears).

Testing involves far more expensive, often invasive, procedures that are given only to those who manifest some clinical indication of disease, and are most often applied to confirm a suspected diagnosis.

For example, most states in the USA require newborns to be screened for phenylketonuria and hypothyroidism, among other congenital disorders.

Hypothesis: «The newborns have phenylketonuria and hypothyroidism»

Null Hypothesis (H0): «The newborns do not have phenylketonuria and hypothyroidism»,

Type I error (false positive): The true fact is that the newborns do not have phenylketonuria and hypothyroidism but we consider they have the disorders according to the data.

Type II error (false negative): The true fact is that the newborns have phenylketonuria and hypothyroidism but we consider they do not have the disorders according to the data.

Although they display a high rate of false positives, the screening tests are considered valuable because they greatly increase the likelihood of detecting these disorders at a far earlier stage.

The simple blood tests used to screen possible blood donors for HIV and hepatitis have a significant rate of false positives; however, physicians use much more expensive and far more precise tests to determine whether a person is actually infected with either of these viruses.

Perhaps the most widely discussed false positives in medical screening come from the breast cancer screening procedure mammography. The US rate of false positive mammograms is up to 15%, the highest in world. One consequence of the high false positive rate in the US is that, in any 10-year period, half of the American women screened receive a false positive mammogram. False positive mammograms are costly, with over $100 million spent annually in the U.S. on follow-up testing and treatment. They also cause women unneeded anxiety. As a result of the high false positive rate in the US, as many as 90–95% of women who get a positive mammogram do not have the condition. The lowest rate in the world is in the Netherlands, 1%. The lowest rates are generally in Northern Europe where mammography films are read twice and a high threshold for additional testing is set (the high threshold decreases the power of the test).

The ideal population screening test would be cheap, easy to administer, and produce zero false-negatives, if possible. Such tests usually produce more false-positives, which can subsequently be sorted out by more sophisticated (and expensive) testing.

Medical testing[edit]

False negatives and false positives are significant issues in medical testing.

Hypothesis: «The patients have the specific disease».

Null hypothesis (H0): «The patients do not have the specific disease».

Type I error (false positive): «The true fact is that the patients do not have a specific disease but the physicians judges the patients was ill according to the test reports».

False positives can also produce serious and counter-intuitive problems when the condition being searched for is rare, as in screening. If a test has a false positive rate of one in ten thousand, but only one in a million samples (or people) is a true positive, most of the positives detected by that test will be false. The probability that an observed positive result is a false positive may be calculated using Bayes’ theorem.

Type II error (false negative): «The true fact is that the disease is actually present but the test reports provide a falsely reassuring message to patients and physicians that the disease is absent».

False negatives produce serious and counter-intuitive problems, especially when the condition being searched for is common. If a test with a false negative rate of only 10% is used to test a population with a true occurrence rate of 70%, many of the negatives detected by the test will be false.

This sometimes leads to inappropriate or inadequate treatment of both the patient and their disease. A common example is relying on cardiac stress tests to detect coronary atherosclerosis, even though cardiac stress tests are known to only detect limitations of coronary artery blood flow due to advanced stenosis.

Biometrics[edit]

Biometric matching, such as for fingerprint recognition, facial recognition or iris recognition, is susceptible to type I and type II errors.

Hypothesis: «The input does not identify someone in the searched list of people»

Null hypothesis: «The input does identify someone in the searched list of people»

Type I error (false reject rate): «The true fact is that the person is someone in the searched list but the system concludes that the person is not according to the data».

Type II error (false match rate): «The true fact is that the person is not someone in the searched list but the system concludes that the person is someone whom we are looking for according to the data».

The probability of type I errors is called the «false reject rate» (FRR) or false non-match rate (FNMR), while the probability of type II errors is called the «false accept rate» (FAR) or false match rate (FMR).

If the system is designed to rarely match suspects then the probability of type II errors can be called the «false alarm rate». On the other hand, if the system is used for validation (and acceptance is the norm) then the FAR is a measure of system security, while the FRR measures user inconvenience level.

Security screening[edit]

False positives are routinely found every day in airport security screening, which are ultimately visual inspection systems. The installed security alarms are intended to prevent weapons being brought onto aircraft; yet they are often set to such high sensitivity that they alarm many times a day for minor items, such as keys, belt buckles, loose change, mobile phones, and tacks in shoes.

Here, the null hypothesis is that the item is not a weapon, while the alternative hypothesis is that the item is a weapon.

A type I error (false positive): «The true fact is that the item is not a weapon but the system still alarms».

Type II error (false negative) «The true fact is that the item is a weapon but the system keeps silent at this time».

The ratio of false positives (identifying an innocent traveler as a terrorist) to true positives (detecting a would-be terrorist) is, therefore, very high; and because almost every alarm is a false positive, the positive predictive value of these screening tests is very low.

The relative cost of false results determines the likelihood that test creators allow these events to occur. As the cost of a false negative in this scenario is extremely high (not detecting a bomb being brought onto a plane could result in hundreds of deaths) whilst the cost of a false positive is relatively low (a reasonably simple further inspection) the most appropriate test is one with a low statistical specificity but high statistical sensitivity (one that allows a high rate of false positives in return for minimal false negatives).

Computers[edit]

The notions of false positives and false negatives have a wide currency in the realm of computers and computer applications, including computer security, spam filtering, Malware, Optical character recognition and many others.

For example, in the case of spam filtering the hypothesis here is that the message is a spam.

Thus, null hypothesis: «The message is not a spam».

Type I error (false positive): «Spam filtering or spam blocking techniques wrongly classify a legitimate email message as spam and, as a result, interferes with its delivery».

While most anti-spam tactics can block or filter a high percentage of unwanted emails, doing so without creating significant false-positive results is a much more demanding task.

Type II error (false negative): «Spam email is not detected as spam, but is classified as non-spam». A low number of false negatives is an indicator of the efficiency of spam filtering.

See also[edit]

  • Binary classification
  • Detection theory
  • Egon Pearson
  • Ethics in mathematics
  • False positive paradox
  • False discovery rate
  • Family-wise error rate
  • Information retrieval performance measures
  • Neyman–Pearson lemma
  • Null hypothesis
  • Probability of a hypothesis for Bayesian inference
  • Precision and recall
  • Prosecutor’s fallacy
  • Prozone phenomenon
  • Receiver operating characteristic
  • Sensitivity and specificity
  • Statisticians’ and engineers’ cross-reference of statistical terms
  • Testing hypotheses suggested by the data
  • Type III error

References[edit]

  1. ^ «Type I Error and Type II Error». explorable.com. Retrieved 14 December 2019.
  2. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  3. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  4. ^ Sheskin, David (2004). Handbook of Parametric and Nonparametric Statistical Procedures. CRC Press. p. 54. ISBN 1584884401.
  5. ^ Lindenmayer, David. (2005). Practical conservation biology. Burgman, Mark A. Collingwood, Vic.: CSIRO Pub. ISBN 0-643-09310-9. OCLC 65216357.
  6. ^ NEYMAN, J.; PEARSON, E. S. (1928). «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference Part I». Biometrika. 20A (1–2): 175–240. doi:10.1093/biomet/20a.1-2.175. ISSN 0006-3444.
  7. ^ C.I.K.F. (July 1951). «Probability Theory for Statistical Methods. By F. N. David. [Pp. ix + 230. Cambridge University Press. 1949. Price 155.]». Journal of the Staple Inn Actuarial Society. 10 (3): 243–244. doi:10.1017/s0020269x00004564. ISSN 0020-269X.
  8. ^ Note that the subscript in the expression H0 is a zero (indicating null), and is not an «O» (indicating original).
  9. ^ Neyman, J.; Pearson, E. S. (30 October 1933). «The testing of statistical hypotheses in relation to probabilities a priori». Mathematical Proceedings of the Cambridge Philosophical Society. 29 (4): 492–510. Bibcode:1933PCPS…29..492N. doi:10.1017/s030500410001152x. ISSN 0305-0041. S2CID 119855116.
  10. ^ Fisher, R.A. (1966). The design of experiments. 8th edition. Hafner:Edinburgh.

Bibliography[edit]

  • Betz, M.A. & Gabriel, K.R., «Type IV Errors and Analysis of Simple Effects», Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
  • David, F.N., «A Power Function for Tests of Randomness in a Sequence of Alternatives», Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
  • Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., «False Positives on Newborns’ Disease Tests Worry Parents», Health Day, (5 June 2006). [1] Archived 17 May 2018 at the Wayback Machine
  • Kaiser, H.F., «Directional Statistical Decisions», Psychological Review, Vol.67, No.3, (May 1960), pp. 160–167.
  • Kimball, A.W., «Errors of the Third Kind in Statistical Consulting», Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
  • Lubin, A., «The Interpretation of Significant Interaction», Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
  • Marascuilo, L.A. & Levin, J.R., «Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors», American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
  • Mitroff, I.I. & Featheringham, T.R., «On Systemic Problem Solving and the Error of the Third Kind», Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
  • Mosteller, F., «A k-Sample Slippage Test for an Extreme Population», The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
  • Moulton, R.T., «Network Security», Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
  • Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–Wesley, (Reading), 1968.

External links[edit]

  • Bias and Confounding – presentation by Nigel Paneth, Graduate School of Public Health, University of Pittsburgh

Ошибки, встроенные в систему: их роль в статистике

Время на прочтение
6 мин

Количество просмотров 14K

В прошлой статье я указал, как распространена проблема неправильного использования t-критерия в научных публикациях (и это возможно сделать только благодаря их открытости, а какой трэш творится при его использовании во всяких курсовых, отчетах, обучающих задачах и т.д. — неизвестно). Чтобы обсудить это, я рассказал об основах дисперсионного анализа и задаваемом самим исследователем уровне значимости α. Но для полного понимания всей картины статистического анализа необходимо подчеркнуть ряд важных вещей. И самая основная из них — понятие ошибки.

Ошибка и некорректное применение: в чем разница?

В любой физической системе содержится какая-либо ошибка, неточность. В самой разнообразной форме: так называемый допуск — отличие в размерах разных однотипных изделий; нелинейная характеристика — когда прибор или метод измеряют что-то по строго известному закону в определенных пределах, а дальше становятся неприменимыми; дискретность — когда мы чисто технически не можем обеспечить плавность выходной характеристики.

И в то же время существует чисто человеческая ошибка — некорректное использование устройств, приборов, математических законов. Между ошибкой, присущей системе, и ошибкой применения этой системы есть принципиальная разница. Важно различать и не путать между собой эти два понятия, называемые одним и тем же словом «ошибка». Я в данной статье предпочитаю использовать слово «ошибка» для обозначения свойства системы, а «некорректное применение» — для ошибочного ее использования.

То есть, ошибка линейки равна допуску оборудования, наносящего штрихи на ее полотно. А ошибкой в смысле некорректного применения было бы использовать ее при измерении деталей наручных часов. Ошибка безмена написана на нем и составляет что-то около 50 граммов, а неправильным использованием безмена было бы взвешивание на нем мешка в 25 кг, который растягивает пружину из области закона Гука в область пластических деформаций. Ошибка атомно-силового микроскопа происходит из его дискретности — нельзя «пощупать» его зондом предметы мельче, чем диаметром в один атом. Но способов неправильно использовать его или неправильно интерпретировать данные существует множество. И так далее.

Так, а что же за ошибка имеет место в статистических методах? А этой ошибкой как раз и является пресловутый уровень значимости α.

Ошибки первого и второго рода

Ошибкой в математическом аппарате статистики является сама ее Байесовская вероятностная сущность. В прошлой статье я уже упоминал, на чем стоят статистические методы: определение уровня значимости α как наибольшей допустимой вероятности неправомерно отвергнуть нулевую гипотезу, и самостоятельное задание исследователем этой величины перед исследователем.
Вы уже видите эту условность? На самом деле, в критериальных методах нету привычной математической строгости. Математика здесь оперирует вероятностными характеристиками.
И тут наступает еще один момент, где возможна неправильная трактовка одного слова в разном контексте. Необходимо различать само понятие вероятности и фактическую реализацию события, выражающуюся в распределении вероятности. Например, перед началом любого нашего эксперимента мы не знаем, какую именно величину мы получим в результате. Есть два возможных исхода: загадав некоторое значение результата, мы либо действительно его получим, либо не получим. Логично, что вероятность и того, и другого события равна 1/2. Но показанная в предыдущей статье Гауссова кривая показывает распределение вероятности того, что мы правильно угадаем совпадение.

Наглядно можно проиллюстрировать это примером. Пусть мы 600 раз бросаем два игральных кубика — обычный и шулерский. Получим следующие результаты:

До эксперимента для обоих кубиков выпадение любой грани будет равновероятно — 1/6. Однако после эксперимента проявляется сущность шулерского кубика, и мы можем сказать, что плотность вероятности выпадения на нем шестерки — 90%.

Другой пример, который знают химики, физики и все, кто интересуется квантовыми эффектами — атомные орбитали. Теоретически электрон может быть «размазан» в пространстве и находиться практически где угодно. Но на практике есть области, где он будет находиться в 90 и более процентах случаев. Эти области пространства, образованные поверхностью с плотностью вероятности нахождения там электрона 90%, и есть классические атомные орбитали, в виде сфер, гантелей и т.д.

Так вот, самостоятельно задавая уровень значимости, мы заведомо соглашаемся на описанную в его названии ошибку. Из-за этого ни один результат нельзя считать «стопроцентно достоверным» — всегда наши статистические выводы будут содержать некоторую вероятность сбоя.

Ошибка, формулируемая определением уровня значимости α, называется ошибкой первого рода. Ее можно определить, как «ложная тревога», или, более корректно, ложноположительный результат. В самом деле, что означают слова «ошибочно отвергнуть нулевую гипотезу»? Это значит, по ошибке принять наблюдаемые данные за значимые различия двух групп. Поставить ложный диагноз о наличии болезни, поспешить явить миру новое открытие, которого на самом деле нет — вот примеры ошибок первого рода.

Но ведь тогда должны быть и ложноотрицательные результаты? Совершенно верно, и они называются ошибками второго рода. Примеры — не поставленный вовремя диагноз или же разочарование в результате исследования, хотя на самом деле в нем есть важные данные. Ошибки второго рода обозначаются буквой, как ни странно, β. Но само это понятие не так важно для статистики, как число 1-β. Число 1-β называется мощностью критерия, и как нетрудно догадаться, оно характеризует способность критерия не упустить значимое событие.
Однако содержание в статистических методах ошибок первого и второго рода не является только лишь их ограничением. Само понятие этих ошибок может использоваться непосредственным образом в статистическом анализе. Как?

ROC-анализ

ROC-анализ (от receiver operating characteristic, рабочая характеристика приёмника) — это метод количественного определения применимости некоторого признака к бинарной классификации объектов. Говоря проще, мы можем придумать некоторый способ, как отличить больных людей от здоровых, кошек от собак, черное от белого, а затем проверить правомерность такого способа. Давайте снова обратимся к примеру.

Пусть вы — подающий надежды криминалист, и разрабатываете новый способ скрытно и однозначно определять, является ли человек преступником. Вы придумали количественный признак: оценивать преступные наклонности людей по частоте прослушивания ими Михаила Круга. Но будет ли давать адекватные результаты ваш признак? Давайте разбираться.
Вам понадобится две группы людей для валидации вашего критерия: обычные граждане и преступники. Положим, действительно, среднегодовое время прослушивания ими Михаила Круга различается (см. рисунок):

Здесь мы видим, что по количественному признаку времени прослушивания наши выборки пересекаются. Кто-то слушает Круга спонтанно по радио, не совершая преступлений, а кто-то нарушает закон, слушая другую музыку или даже будучи глухим. Какие у нас есть граничные условия? ROC-анализ вводит понятия селективности (чувствительности) и специфичности. Чувствительность определяется как способность выявлять все-все интересующие нас точки (в данном примере — преступников), а специфичность — не захватывать ничего ложноположительного (не ставить под подозрение простых обывателей). Мы можем задать некоторую критическую количественную черту, отделяющую одних от других (оранжевая), в пределах от максимальной чувствительности (зеленая) до максимальной специфичности (красная).
Посмотрим на следующую схему:

Смещая значение нашего признака, мы меняем соотношения ложноположительного и ложноотрицательного результатов (площади под кривыми). Точно так же мы можем дать определения Чувствительность = Полож. рез-т/(Полож. рез-т + ложноотриц. рез-т) и Специфичность = Отриц. рез-т/(Отриц. рез-т + ложноположит. рез-т).

Но главное, мы можем оценить соотношение положительных результатов к ложноположительным на всем отрезке значений нашего количественного признака, что и есть наша искомая ROC-кривая (см. рисунок):

А как нам понять из этого графика, насколько хорош наш признак? Очень просто, посчитать площадь под кривой (AUC, area under curve). Пунктирная линия (0,0; 1,1) означает полное совпадение двух выборок и совершенно бессмысленный критерий (площадь под кривой равна 0,5 от всего квадрата). А вот выпуклость ROC кривой как раз и говорит о совершенстве критерия. Если же нам удастся найти такой критерий, что выборки вообще не будут пересекаться, то площадь под кривой займет весь график. В целом же признак считается хорошим, позволяющим надежно отделить одну выборку от другой, если AUC > 0,75-0,8.

С помощью такого анализа вы можете решать самые разные задачи. Решив, что слишком много домохозяек оказались под подозрением из-за Михаила Круга, а кроме того упущены опасные рецидивисты, слушающие Ноггано, вы можете отвергнуть этот критерий и разработать другой.

Возникнув, как способ обработки радиосигналов и идентификации «свой-чужой» после атаки на Перл-Харбор (отсюда и пошло такое странное название про характеристику приемника), ROC-анализ нашел широкое применение в биомедицинской статистике для анализа, валидации, создания и характеристики панелей биомаркеров и т.д. Он гибок в использовании, если оно основано на грамотной логике. Например, вы можете разработать показания для медицинской диспансеризации пенсионеров-сердечников, применив высокоспецифичный критерий, повысив эффективность выявления болезней сердца и не перегружая врачей лишними пациентами. А во время опасной эпидемии ранее неизвестного вируса вы наоборот, можете придумать высокоселективный критерий, чтобы от вакцинации в прямом смысле не ускользнул ни один чих.

С ошибками обоих родов и их наглядностью в описании валидируемых критериев мы познакомились. Теперь же, двигаясь от этих логических основ, можно разрушить ряд ложных стереотипных описаний результатов. Некоторые неправильные формулировки захватывают наши умы, часто путаясь своими схожими словами и понятиями, а также из-за очень малого внимания, уделяемого неверной интерпретации. Об этом, пожалуй, нужно будет написать отдельно.

Понравилась статья? Поделить с друзьями:

Интересное по теме:

  • Ошибка отправки и получения outlook 2010
  • Ошибка первого датчика кислорода ниссан теана j32
  • Ошибка парктроника вольво s60
  • Ошибка первого рода false positive
  • Ошибка отправки заявления на госуслугах что это значит

  • Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: