Вычисление доверительного интервала в Microsoft Excel.

Доверительные интервалы.

Вычисление доверительного интервала базируется на средней ошибке соответствующего параметра. Доверительный интервал показывает, в каких пределах с вероятностью (1-a) находится истинное значение оцениваемого параметра. Здесь a – уровень значимости, (1-a) называют также доверительной вероятностью.

В первой главе мы показали, что, например, для среднего арифметического, истинное среднее по сово­купности примерно в 95% случаев лежит в пределах 2 средних ошибок среднего. Таким образом, границы 95% доверительного интервала для среднего будет отстоять от выборочного среднего на удвоенную среднюю ошибку среднего, т.е. мы умножаем среднюю ошибку среднего на некий коэффициент, зависящий от доверительной вероятности. Для среднего и разности средних берётся коэффициент Стьюдента (критическое значение критерия Стьюдента), для доли и разности долей критическое значение критерия z. Произведение коэффициента на среднюю ошибку можно назвать предельной ошибкой данного параметра, т.е. максимальную, которую мы можем получить при его оценке.

Доверительный интервал для среднего арифметического : .

Здесь - выборочное среднее;

Средняя ошибка среднего арифметического;

s – выборочное среднее квадратическое отклонение;

n

f = n -1 (коэффициент Стьюдента).

Доверительный интервал для разности средних арифметических :

Здесь - разность выборочных средних;

- средняя ошибка разности средних арифметических;

s 1 ,s 2 – выборочные средние квадратические отклонения;

n 1 ,n 2

Критическое значение критерия Стьюдента при заданных уровне значимости a и числе степеней свободы f=n 1 +n 2 -2 (коэффициент Стьюдента).

Доверительный интервал для доли :

.

Здесь d – выборочная доля;

– средняя ошибка доли;

n – объём выборки (численность группы);

Доверительный интервал для разности долей :

Здесь - разность выборочных долей;

– средняя ошибка разности средних арифметических;

n 1 ,n 2 – объёмы выборок (численности групп);

Критическое значение критерия z при заданном уровне значимости a ( , , ).

Вычисляя доверительные интервалы для разности показателей, мы, во-первых, непосредственно видим возможные значения эффекта, а не только его точечную оценку. Во-вторых, можем сделать вывод о принятии или опровержении нулевой гипотезы и, в-третьих, можем сделать вывод о мощности критерия.

При проверке гипотез с помощью доверительных интервалов надо придерживаться следующего правила:

Если 100(1-a)-процентный доверительный интервал разности средних не содержит нуля, то различия статистически значимы на уровне значимости a; напротив, если этот интервал содержит ноль, то различия статистически не значимы.

Действительно, если этот интервал содержит ноль, то, значит, сравниваемый показатель может оказаться как больше, так и меньше в одной из групп, по сравнению с другой, т.е. наблюдаемые различия случайны.

По месту, где находится ноль внутри доверительного интервала, можно судить о мощности критерия. Если ноль близок к нижней или верхней границе интервала, то возможно при большей численности сравниваемых групп, различия достигли бы статистической значимости. Если ноль близок к середине интервала, то, значит, равновероятно и увеличение и уменьшение показателя в экспериментальной группе, и, вероятно, различий действительно нет.

Примеры:

Сравнить операционную летальность при применении двух разных видов анестезии: с применением первого вида анестезии оперировалось 61 человек, умерло 8, с применением второго – 67 человек, умерло 10.

d 1 = 8/61 = 0,131; d 2 = 10/67 = 0,149; d1-d2 = - 0,018.

Разность летальностей сравниваемых методов будет находиться в интервале (-0,018 - 0,122; -0,018 + 0,122) или (-0,14 ; 0,104) с вероятностью 100(1-a) = 95%. Интервал содержит ноль, т.е. гипотезу об одинаковой летальности при двух разных видах анестезии отвергнуть нельзя.

Таким образом, летальность может и уменьшится до 14% и увеличиться до 10,4% с вероятностью 95%, т.е. ноль находится примерно по середине интервала, поэтому можно утверждать, что, скорее всего, действительно не отличаются по летальности эти два метода.

В рассмотренном ранее примере сравнивалось среднее время нажатия при теппинг-тесте в четырёх группах студентов, отличающихся по экзаменационной оценке. Вычислим доверительные интервалы среднего времени нажатия для студентов, сдавших экзамен на 2 и на 5 и доверительный интервал для разности этих средних.

Коэффициенты Стьюдента находим по таблицам распределения Стьюдента (см. приложение): для первой группы: = t(0,05;48) = 2,011; для второй группы: = t(0,05;61) = 2,000. Таким образом, доверительные интервалы для первой группы: = (162,19-2,011*2,18 ; 162,19+2,011*2,18) = (157,8 ; 166,6) , для второй группы (156,55-2,000*1,88 ; 156,55+2,000*1,88) = (152,8 ; 160,3). Итак, для сдавших экзамен на 2, среднее время нажатия лежит в пределах от 157,8 мс до 166,6 мс с вероятностью 95%, для сдавших экзамен на 5 – от 152,8 мс до 160,3 мс с вероятностью 95%.

Проверять нулевую гипотезу можно и по доверительным интервалам для средних, а не только для разности средних. Например, как в нашем случае, если доверительные интервалы для средних перекрываются, то нулевую гипотезу отвергнуть нельзя. Для того чтобы отвергнуть гипотезу на выбранном уровне значимости, соответствующие доверительные интервалы не должны перекрываться.

Найдём доверительный интервал для разности среднего времени нажатия в группах сдавших экзамен на 2 и на 5. Разность средних: 162,19 – 156,55 = 5,64. Коэффициент Стьюдента: = t(0,05;49+62-2) = t(0,05;109) = 1,982. Групповые средние квадратические отклонения будут равны: ; . Вычисляем среднюю ошибку разности средних: . Доверительный интервал: =(5,64-1,982*2,87 ; 5,64+1,982*2,87) = (-0,044 ; 11,33).

Итак, разница среднего времени нажатия в группах, сдавших экзамен на 2 и на 5, будет находиться в интервале от -0,044 мс до 11,33 мс. В этот интервал входит ноль, т.е. среднее время нажатия у отлично сдавших экзамен, может и увеличиться и уменьшится по сравнению с неудовлетворительно сдавшими, т.е. нулевую гипотезу отвергнуть нельзя. Но ноль находится очень близко к нижней границе, время нажатия гораздо вероятнее всё-таки уменьшается у отлично сдавших. Таким образом, можно сделать вывод, что различия в среднем времени нажатия между сдавшими на 2 и на 5 всё-таки есть, просто мы не смогли их обнаружить при данном изменении среднего времени, разбросе среднего времени и объёмах выборок.



Мощность критерия – это вероятность отвергнуть неверную нулевую гипотезу, т.е. найти различия там, где они действительно есть.

Мощность критерия определяется исходя из уровня значимости, величины различий между группами, разброса значений в группах и объёма выборок.

Для критерия Стьюдента и дисперсионного анализа можно воспользоваться диаграммами чувствительности.

Мощность критерия можно использовать при предварительном определении необходимой численности групп.

Доверительный интервал показывает, в каких пределах с заданной вероятностью находится истинное значение оцениваемого параметра.

С помощью доверительных интервалов можно проверять статистические гипотезы и делать выводы о чувствительности критериев.

ЛИТЕРАТУРА.

Гланц С. – Глава 6,7.

Реброва О.Ю. – с.112-114, с.171-173, с.234-238.

Сидоренко Е. В. – с.32-33.

Вопросы для самопроверки студентов.

1. Что такое мощность критерия?

2. В каких случаях необходимо оценить мощность критериев?

3. Способы расчёта мощности.

6. Как проверить статистическую гипотезу с помощью доверительного интервала?

7. Что можно сказать о мощности критерия при расчёте доверительного интервала?

Задачи.

Одним из методов решения статистических задач является вычисление доверительного интервала. Он используется, как более предпочтительная альтернатива точечной оценке при небольшом объеме выборки. Нужно отметить, что сам процесс вычисления доверительного интервала довольно сложный. Но инструменты программы Эксель позволяют несколько упростить его. Давайте узнаем, как это выполняется на практике.

Этот метод используется при интервальной оценке различных статистических величин. Главная задача данного расчета – избавится от неопределенностей точечной оценки.

В Экселе существуют два основных варианта произвести вычисления с помощью данного метода: когда дисперсия известна, и когда она неизвестна. В первом случае для вычислений применяется функция ДОВЕРИТ.НОРМ , а во втором — ДОВЕРИТ.СТЮДЕНТ .

Способ 1: функция ДОВЕРИТ.НОРМ

Оператор ДОВЕРИТ.НОРМ , относящийся к статистической группе функций, впервые появился в Excel 2010. В более ранних версиях этой программы используется его аналог ДОВЕРИТ . Задачей этого оператора является расчет доверительного интервала с нормальным распределением для средней генеральной совокупности.

Его синтаксис выглядит следующим образом:

ДОВЕРИТ.НОРМ(альфа;стандартное_откл;размер)

«Альфа» — аргумент, указывающий на уровень значимости, который применяется для расчета доверительного уровня. Доверительный уровень равняется следующему выражению:

(1-«Альфа»)*100

«Стандартное отклонение» — это аргумент, суть которого понятна из наименования. Это стандартное отклонение предлагаемой выборки.

«Размер» — аргумент, определяющий величину выборки.

Все аргументы данного оператора являются обязательными.

Функция ДОВЕРИТ имеет точно такие же аргументы и возможности, что и предыдущая. Её синтаксис таков:

ДОВЕРИТ(альфа;стандартное_откл;размер)

Как видим, различия только в наименовании оператора. Указанная функция в целях совместимости оставлена в Excel 2010 и в более новых версиях в специальной категории «Совместимость» . В версиях же Excel 2007 и ранее она присутствует в основной группе статистических операторов.

Граница доверительного интервала определяется при помощи формулы следующего вида:

X+(-)ДОВЕРИТ.НОРМ

Где X – это среднее выборочное значение, которое расположено посередине выбранного диапазона.

Теперь давайте рассмотрим, как рассчитать доверительный интервал на конкретном примере. Было проведено 12 испытаний, вследствие которых были получены различные результаты, занесенные в таблицу. Это и есть наша совокупность. Стандартное отклонение равно 8. Нам нужно рассчитать доверительный интервал при уровне доверия 97%.

  1. Выделяем ячейку, куда будет выводиться результат обработки данных. Щелкаем по кнопке «Вставить функцию» .
  2. Появляется Мастер функций . Переходим в категорию «Статистические» и выделяем наименование «ДОВЕРИТ.НОРМ» . После этого клацаем по кнопке «OK» .
  3. Открывается окошко аргументов. Его поля закономерно соответствуют наименованиям аргументов.
    Устанавливаем курсор в первое поле – «Альфа» . Тут нам следует указать уровень значимости. Как мы помним, уровень доверия у нас равен 97%. В то же время мы говорили, что он рассчитывается таким путем:

    (1-уровень доверия)/100

    То есть, подставив значение, получаем:

    Путем нехитрых расчетов узнаем, что аргумент «Альфа» равен 0,03 . Вводим данное значение в поле.

    Как известно, по условию стандартное отклонение равно 8 . Поэтому в поле «Стандартное отклонение» просто записываем это число.

    В поле «Размер» нужно ввести количество элементов проведенных испытаний. Как мы помним, их 12 . Но чтобы автоматизировать формулу и не редактировать её каждый раз при проведении нового испытания, давайте зададим данное значение не обычным числом, а при помощи оператора СЧЁТ . Итак, устанавливаем курсор в поле «Размер» , а затем кликаем по треугольнику, который размещен слева от строки формул.

    Появляется список недавно применяемых функций. Если оператор СЧЁТ применялся вами недавно, то он должен быть в этом списке. В таком случае, нужно просто кликнуть по его наименованию. В обратном же случае, если вы его не обнаружите, то переходите по пункту «Другие функции…» .

  4. Появляется уже знакомый нам Мастер функций . Опять перемещаемся в группу «Статистические» . Выделяем там наименование «СЧЁТ» . Клацаем по кнопке «OK» .
  5. Появляется окно аргументов вышеуказанного оператора. Данная функция предназначена для того, чтобы вычислять количество ячеек в указанном диапазоне, которые содержат числовые значения. Синтаксис её следующий:

    СЧЁТ(значение1;значение2;…)

    Группа аргументов «Значения» представляет собой ссылку на диапазон, в котором нужно рассчитать количество заполненных числовыми данными ячеек. Всего может насчитываться до 255 подобных аргументов, но в нашем случае понадобится лишь один.

    Устанавливаем курсор в поле «Значение1» и, зажав левую кнопку мыши, выделяем на листе диапазон, который содержит нашу совокупность. Затем его адрес будет отображен в поле. Клацаем по кнопке «OK» .

  6. После этого приложение произведет вычисление и выведет результат в ту ячейку, где она находится сама. В нашем конкретном случае формула получилась такого вида:

    ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

    Общий результат вычислений составил 5,011609 .

  7. Но это ещё не все. Как мы помним, граница доверительного интервала вычисляется путем сложения и вычитания от среднего выборочного значения результата вычисления ДОВЕРИТ.НОРМ . Таким способом рассчитывается соответственно правая и левая граница доверительного интервала. Само среднее выборочное значение можно рассчитать при помощи оператора СРЗНАЧ .

    Данный оператор предназначен для расчета среднего арифметического значения выбранного диапазона чисел. Он имеет следующий довольно простой синтаксис:

    СРЗНАЧ(число1;число2;…)

    Аргумент «Число» может быть как отдельным числовым значением, так и ссылкой на ячейки или даже целые диапазоны, которые их содержат.

    Итак, выделяем ячейку, в которую будет выводиться расчет среднего значения, и щелкаем по кнопке «Вставить функцию» .

  8. Открывается Мастер функций . Снова переходим в категорию «Статистические» и выбираем из списка наименование «СРЗНАЧ» . Как всегда, клацаем по кнопке «OK» .
  9. Запускается окно аргументов. Устанавливаем курсор в поле «Число1» и с зажатой левой кнопкой мыши выделяем весь диапазон значений. После того, как координаты отобразились в поле, клацаем по кнопке «OK» .
  10. После этого СРЗНАЧ выводит результат расчета в элемент листа.
  11. Производим расчет правой границы доверительного интервала. Для этого выделяем отдельную ячейку, ставим знак «=» и складываем содержимое элементов листа, в которых расположены результаты вычислений функций СРЗНАЧ и ДОВЕРИТ.НОРМ . Для того, чтобы выполнить расчет, жмем на клавишу Enter . В нашем случае получилась следующая формула:

    Результат вычисления: 6,953276

  12. Таким же образом производим вычисление левой границы доверительного интервала, только на этот раз от результата вычисления СРЗНАЧ отнимаем результат вычисления оператора ДОВЕРИТ.НОРМ . Получается формула для нашего примера следующего типа:

    Результат вычисления: -3,06994

  13. Мы попытались подробно описать все действия по вычислению доверительного интервала, поэтому детально расписали каждую формулу. Но можно все действия соединить в одной формуле. Вычисление правой границы доверительного интервала можно записать так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

  14. Аналогичное вычисление левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.НОРМ(0,03;8;СЧЁТ(B2:B13))

Способ 2: функция ДОВЕРИТ.СТЮДЕНТ

Кроме того, в Экселе есть ещё одна функция, которая связана с вычислением доверительного интервала – ДОВЕРИТ.СТЮДЕНТ . Она появилась, только начиная с Excel 2010. Данный оператор выполняет вычисление доверительного интервала генеральной совокупности с использованием распределения Стьюдента. Его очень удобно использовать в том случае, когда дисперсия и, соответственно, стандартное отклонение неизвестны. Синтаксис оператора такой:

ДОВЕРИТ.СТЬЮДЕНТ(альфа;стандартное_откл;размер)

Как видим, наименования операторов и в этом случае остались неизменными.

Посмотрим, как рассчитать границы доверительного интервала с неизвестным стандартным отклонением на примере всё той же совокупности, что мы рассматривали в предыдущем способе. Уровень доверия, как и в прошлый раз, возьмем 97%.

  1. Выделяем ячейку, в которую будет производиться расчет. Клацаем по кнопке «Вставить функцию» .
  2. В открывшемся Мастере функций переходим в категорию «Статистические» . Выбираем наименование «ДОВЕРИТ.СТЮДЕНТ» . Клацаем по кнопке «OK» .
  3. Производится запуск окна аргументов указанного оператора.

    В поле «Альфа» , учитывая, что уровень доверия составляет 97%, записываем число 0,03 . Второй раз на принципах расчета данного параметра останавливаться не будем.

    После этого устанавливаем курсор в поле «Стандартное отклонение» . На этот раз данный показатель нам неизвестен и его требуется рассчитать. Делается это при помощи специальной функции – СТАНДОТКЛОН.В . Чтобы вызвать окно данного оператора, кликаем по треугольнику слева от строки формул. Если в открывшемся списке не находим нужного наименования, то переходим по пункту «Другие функции…» .

  4. Запускается Мастер функций . Перемещаемся в категорию «Статистические» и отмечаем в ней наименование «СТАНДОТКЛОН.В» . Затем клацаем по кнопке «OK» .
  5. Открывается окно аргументов. Задачей оператора СТАНДОТКЛОН.В является определение стандартного отклонения при выборке. Его синтаксис выглядит так:

    СТАНДОТКЛОН.В(число1;число2;…)

    Нетрудно догадаться, что аргумент «Число» — это адрес элемента выборки. Если выборка размещена единым массивом, то можно, использовав только один аргумент, дать ссылку на данный диапазон.

    Устанавливаем курсор в поле «Число1» и, как всегда, зажав левую кнопку мыши, выделяем совокупность. После того, как координаты попали в поле, не спешим жать на кнопку «OK» , так как результат получится некорректным. Прежде нам нужно вернуться к окну аргументов оператора ДОВЕРИТ.СТЮДЕНТ , чтобы внести последний аргумент. Для этого кликаем по соответствующему наименованию в строке формул.

  6. Снова открывается окно аргументов уже знакомой функции. Устанавливаем курсор в поле «Размер» . Опять жмем на уже знакомый нам треугольник для перехода к выбору операторов. Как вы поняли, нам нужно наименование «СЧЁТ» . Так как мы использовали данную функцию при вычислениях в предыдущем способе, в данном списке она присутствует, так что просто щелкаем по ней. Если же вы её не обнаружите, то действуйте по алгоритму, описанному в первом способе.
  7. Попав в окно аргументов СЧЁТ , ставим курсор в поле «Число1» и с зажатой кнопкой мыши выделяем совокупность. Затем клацаем по кнопке «OK» .
  8. После этого программа производит расчет и выводит значение доверительного интервала.
  9. Для определения границ нам опять нужно будет рассчитать среднее значение выборки. Но, учитывая то, что алгоритм расчета при помощи формулы СРЗНАЧ тот же, что и в предыдущем способе, и даже результат не изменился, не будем на этом подробно останавливаться второй раз.
  10. Сложив результаты вычисления СРЗНАЧ и ДОВЕРИТ.СТЮДЕНТ , получаем правую границу доверительного интервала.
  11. Отняв от результатов расчета оператора СРЗНАЧ результат расчета ДОВЕРИТ.СТЮДЕНТ , имеем левую границу доверительного интервала.
  12. Если расчет записать одной формулой, то вычисление правой границы в нашем случае будет выглядеть так:

    СРЗНАЧ(B2:B13)+ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

  13. Соответственно, формула расчета левой границы будет выглядеть так:

    СРЗНАЧ(B2:B13)-ДОВЕРИТ.СТЬЮДЕНТ(0,03;СТАНДОТКЛОН.В(B2:B13);СЧЁТ(B2:B13))

Как видим, инструменты программы Excel позволяют существенно облегчить вычисление доверительного интервала и его границ. Для этих целей используются отдельные операторы для выборок, у которых дисперсия известна и неизвестна.

Свои способности человек может узнать, только попытавшись приложить их. (Сенека)

Доверительные интервалы

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI - Confidence Interval, ДИ - Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Доверительный интервал для среднего

Использование нормального распределения

Выборочное среднее имеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.

В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.

Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM) и вычисляем 95% доверительного интервала для среднего следующим образом:

Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.

Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное среднее популяции (генеральное среднее).

Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.

Использование t- распределения

Можно использовать нормальное распределение, если знать значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.

Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное среднее подчиняется t-распределению Стьюдента .

Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:

Где - процентная точка (процентиль) t- распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.

Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.

Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t- распределение при вычислении доверительных интервалов, даже если объем выборки большой.

Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.

Вместо произведения стандартной ошибки и табличного значения t- распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.

Доверительный интервал для пропорции

Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним .

Оцениваем выборочным отношением p=r/n (где r - количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:

95% доверительный интервал для пропорции оценивается:

Если объём выборки небольшой (обычно когда np или n(1-p) меньше 5 ), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.

Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p) .

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.

Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.

Доверительный интервал – предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Полученное решение сохраняется в файле Word (см. пример). Ниже представлена видеоинструкция, как заполнять исходные данные.

Пример №1 . В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2 . Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3 . Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти: А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины; Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Выборка называется повторной , если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной , если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .
Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли
Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t – коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro