Относительная статистическая ошибка

In statistics, a relative standard error (RSE) is equal to the standard error of a survey estimate divided by the survey estimate and then multiplied by 100. The number is multiplied by 100 so it can be expressed as a percentage. The RSE does not necessarily represent any new information beyond the standard error, but it might be a superior method of presenting statistical confidence.

Relative Standard Error vs. Standard Error

Standard error measures how much a survey estimate is likely to deviate from the actual population. It is expressed as a number. By contrast, relative standard error (RSE) is the standard error expressed as a fraction of the estimate and is usually displayed as a percentage. Estimates with an RSE of 25% or greater are subject to high sampling error and should be used with caution.

Survey Estimate and Standard Error

Surveys and standard errors are crucial parts of probability theory and statistics. Statisticians use standard errors to construct confidence intervals from their surveyed data. The reliability of these estimates can also be assessed in terms of a confidence interval. Confidence intervals are important for determining the validity of empirical tests and research.

A confidence interval is a type of interval estimate, computed from the statistics of the observed data, that might contain the true value of an unknown population parameter. Confidence intervals represent the range in which the population value is likely to lie. They are constructed using the estimate of the population value and its associated standard error. For example, there is approximately a 95% chance (i.e. 19 chances in 20) that the population value lies within two standard errors of the estimates, so the 95% confidence interval is equal to the estimate plus or minus two standard errors.

In layman’s terms, the standard error of a data sample is a measurement of the likely difference between the sample and the entire population. For example, a study involving 10,000 cigarette-smoking adults may generate slightly different statistical results than if every possible cigarette-smoking adult was surveyed.

Smaller sample errors are indicative of more reliable results. The central limit theorem in inferential statistics suggests that large samples tend to have approximately normal distributions and low sample errors.

Standard Deviation and Standard Error

The standard deviation of a data set is used to express the concentration of survey results. Less variety in the data results in a lower standard deviation. More variety is likely to result in a higher standard deviation.

The standard error is sometimes confused with the standard deviation. The standard error actually refers to the standard deviation of the mean. Standard deviation refers to the variability inside any given sample, while a standard error is the variability of the sampling distribution itself.

Relative Standard Error

The standard error is an absolute gauge between the sample survey and the total population. The relative standard error shows if the standard error is large relative to the results; large relative standard errors suggest the results are not significant. The formula for relative standard error is:



Relative Standard Error

=

Standard Error

Estimate

×

1

0

0

where:

Standard Error

=

standard deviation of the mean sample

Estimate

=

mean of the sample

\begin{aligned} &\text{Relative Standard Error} = \frac { \text{Standard Error} }{ \text{Estimate} } \times 100 \\ &\textbf{where:} \\ &\text{Standard Error} = \text{standard deviation of the mean sample} \\ &\text{Estimate} = \text{mean of the sample} \\ \end{aligned}

Relative Standard Error=EstimateStandard Error×100where:Standard Error=standard deviation of the mean sampleEstimate=mean of the sample

Цель занятия:Освоить практическое
применение статистических методик
оценки достоверности результатов
научных медицинских исследований.

План занятия:

  1. Освоить теоретические основы, основные
    понятия, использующиеся при оценке
    достоверности результатов научных
    медицинских исследований.

  2. Изучить показания и практические
    методики расчета и оценки:

    1. средней ошибки относительного
      показателя;

    2. ошибки средней величины;

    3. доверительных границ показателя и
      средней величины;

    4. средней ошибки показателя, равного 0
      или 100%;

    5. достоверности различий показателей
      и средних величин;

    6. достоверности различий показателей
      и средних величин при малом числе
      наблюдений;

    7. достоверности различий сравниваемых
      средних величин при независимых друг
      от друга наблюдениях;

    8. достоверности различия выборочного
      результата и стандарта;

    9. достоверности средних квадратических
      отклонений;

    10. показателя точности.

Основные понятия и определения по теме

Достоверность результатов
медико-статистических исследований
зависит от ряда условий: от правильности
построения исследования, надежности
исходных документов, точности ручной
и компьютерной обработки.

При проведении любого исследования
встречаются две категории ошибок:

    1. Ошибки, которые нельзя учесть
      математическими методами
      , но при
      хорошей организации исследования их
      можно избежать или свести к минимуму:

а) ошибки методические(неправильная
методика сбора и обработки материала);

б) ошибки точности(неточность
приборов, недостаточная точность
расчетов, неточность первичной регистрации
фактов);

в) ошибки внимания(описки, просчеты,
опечатки);

г) ошибки типичности(отбор группы
объектов, нетипичных для всей генеральной
совокупности, тенденциозный подбор
первичных данных).

Для уменьшения размеров ошибок необходимо
соблюдать объективность отбора единиц
наблюдения, использовать контроль за
качеством материала на каждом этапе
работы. При расчете средних и относительных
величин следует применять надежную
вычислительную технику, а при оценке
качества медико-статистической информации
наряду с логическим контролем состояния
форм использовать более точные методы
текущего (по ходу работы) и конечного
(после завершения выкопировки и изучения
возможности получения сведений о тех
или иных вопросах программы) контроля.

    1. Ошибки, учитываемые математическими
      методами
      – ошибки выборки или
      репрезентативности
      .

Определение ошибки показателя и
средней величины

Ошибки репрезентативности сводятся к
тому, что те или иные числовые характеристики
(относительные коэффициенты, средние
квадратические отклонения и др.),
вычисленные на основании наблюдения
выборочной совокупности, переносятся
на генеральную совокупность. Это
неизбежные ошибки, вытекающие из самой
сущности выборочного исследования. Вся
генеральная совокупность может быть
охарактеризована только по одной ее
части с некоторой ошибкой, то есть с
определенной погрешностью.

Величина ошибки репрезентативности
определяется как объемом выборки, так
и разнообразием признака. Чем больше
число наблюдений, тем меньше ошибка;
чем более изменчив признак, тем больше
величина статистической ошибки.

Рассмотрим вычисление средних ошибок
относительного показателя и средней
величины.

1. Средняя ошибка показателя вычисляется
по формуле:
,
где m – средняя ошибка; p – статистический
коэффициент (относительная величина);
q – величина, обратная p (альтернативный
показатель), и выражена как (1–p), (100–p),
(1000–p) и т.д. в зависимости от основания,
на которое рассчитан коэффициент; n –
число наблюдений в выборочной совокупности.

Если число наблюдений недостаточно
велико (менее 30), в формулу вводится
правка:

Пример:Рассчитать среднюю ошибку
показателя летальности в лечебном
учреждении, если известно: всего выбыло
из стационара 317 больных, из них умерло
13.

Летальность составит:

p=4,1 q=100-4,1=95,9 n=317

Таким образом, показатель летальности
равен: 4,1±1,11%

2. Расчет ошибки средней величины
производится по формуле:
и,
если n≤30, где m – средняя ошибка; σ –
среднее квадратическое отклонение; n –
число наблюдений.

Пример:В результате измерения веса
2000 новорожденных были получены следующие
данные: средний вес новорожденного (М)
составил 3350 граммов; среднее квадратическое
отклонение (σ) – 120 г. Определить ошибку
веса новорожденных.

г М=3350±2,7г.

Определение доверительных границ

Определение величины ошибки
репрезентативности необходимо для
нахождения возможных значений генеральных
параметров. Оценка генеральных параметров
проводится в виде двух значений –
минимального и максимального. Эти
крайние значения возможных отклонений,
в пределах которых может колебаться
искомая величина генерального параметра,
называются доверительными границами.

Теорией вероятности установлено, что
с достоверностью 99,7% можно утверждать,
что эти крайние значения будут отличаться
от полученного ранее показателя не
более чем на величину утроенной средней
ошибки.

С достоверностью 95,5% можно полагать,
что эти отклонения будут не больше
величины удвоенной средней ошибки.

Так, например, если при применении нового
лечебного препарата был достигнут
положительный эффект (Р), равный
80%(m=±2%), то с надежностью 99,7%, можно
утверждать, что при повторных сходных
наблюдениях этот эффект будет колебаться
от 74 до 86% (Р±3m) и с вероятностью в 95,5% –
от 76 до 84% (Р±2m).

Оценка показателя проводится на основе
вычисленной ошибки. Оценка доверительных
границ зависит от степени точности,
которую необходимо придать показателю,
и проводится самим исследователем.

Например, показатель распространенности
пневмокониоза у рабочих угольных
комбайнов равен 15 случаев на 100 работающих
(Р = 15,0%); уторенная ошибка (±3m) – 10,0. В
данном случае доверительные границы
показателя будут колебаться от 5,0 до
25,0. Величина показателя 15% не будет
внушать доверие исследователю из-за
больших его колебаний.

При малой выборке величину доверительного
коэффициента необходимо определять
каждый раз по специальной таблице в
зависимости от числа наблюдений (табл.
1).

Пример:Показатель частоты
недостаточности кровообращения (Р)
равен 55,5%; m=±9,5%; n=27.

              1. Определяем число степеней свободы:
                n’=n-1=27-1=26:

              2. По таблице определяем значения t:
                при вероятности ошибки не более 5%
                и n’=26 значение t равно 2,06;

              3. С достоверностью 95% можно утверждать,
                что величина показателя будет
                колебаться: 55,5%±2,06*9,5%, т.е. от 36 до
                75%.

Таблица 1

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Этот пример — некая симуляция того, как могло бы происходить измерение массы ρ-мезона свыше полувека назад, на заре адронной физики, если бы он был вначале обнаружен в процессе e+e → π+π. А теперь перенесемся в наше время.

Рис. 3. Сечение процесса e+e– → π+π– в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

Понравилась статья? Поделить с друзьями:

Интересное по теме:

  • Относительная среднеквадратическая ошибка
  • Относительная ошибка это отношение абсолютной ошибки к
  • Относительная ошибка уравнения
  • Относительная ошибка численного решения
  • Относительная ошибка хода полигонометрии

  • Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: