No Image

Что такое квантиль распределения

СОДЕРЖАНИЕ
0 просмотров
22 января 2020

Материал из MachineLearning.

Содержание

кванти́ль (или квантиль порядка ) — числовая характеристика закона распределения случайной величины; такое число, что данная случайная величина попадает левее его с вероятностью, не превосходящей .

Определение

кванти́ль случайной величины с функцией распределения — это любое число удовлетворяющее двум условиям:

Заметим, что данные условия эквивалентны следующим:

и x_alpha)le 1- alpha." alt= "mathbb

(xi>x_alpha)le 1- alpha." />

Если — непрерывная строго монотонная функция, то существует единственный квантиль любого порядка который однозначно определяется из уравнения и, следовательно, выражается через функцию, обратную к функции распределения:

Кроме указанной ситуации, когда уравнение имеет единственное решение (которое и дает соответствующий квантиль), возможны также две других:

  • если указанное уравнение не имеет решений, то это означает, что существует единственная точка в которой функция распределения имеет разрыв, которая удовлетворяет данному определению и является квантилем порядка . Для этой точки выполнены соотношения: и x_alpha)le 1- alpha" alt= "mathbb

(xi>x_alpha)le 1- alpha" /> (первое неравенство строгое, а второе может быть как строгим, так и обращаться в равенство).

  • если уравнение имеет более одного решения, то все его решения образуют интервал, на котором функция распределения постоянна. В качестве квантиля порядка может быть взята любая точка этого интервала. Содержательные выводы, в которых участвует квантиль, от этого существенно не изменятся, поскольку вероятность попадания случайной величины в данный интервал равна нулю.
  • Часто используемые квантили специальных видов

    Терминология, принятая в математической статистике

    В задачах математической статистики часто возникает необходимость отделить сверху, снизу или с обеих сторон области, вероятности попадания в которые малы. В связи с этим часто используется следующая терминология.

    Нижний (односторонний) квантиль уровня — то же, что и обычный квантиль порядка :

    Верхний (односторонний) квантиль уровня — обычный квантиль порядка :

    Двусторонние квантили уровня — пара (нижний+верхний) односторонних квантилей уровня . Двусторонние квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью:

    Применение квантилей в задачах проверки статистических гипотез

    Часто применяемая схема решения в задаче проверки статистических гипотез имеет следующий вид. Стараются найти такую статистику , чтобы:

    • распределение при нулевой гипотезе было бы известно (это позволит вычислить вероятность ошибки I рода);
    • при альтернативной гипотезе из общих соображений было бы ясно, что статистика отклоняется от данного распределения либо в положительную, либо в отрицательную сторону.

    Если статистика с указанными свойствами существует, тогда на ее основе можно получить статистический критерий для данной задачи. Для этого необходимо с помощью соответствующих квантилей выделить область (нижнюю, верхнюю или двустороннюю), попадание в которую было бы маловероятно при нулевой гипотезе (и эта вероятность известна), однако может быть объяснено тем, что на самом деле имеет место альтернатива. Многочисленные критерии принятия решения строятся именно по такой схеме.

    Если в дополнение к указанным условиям, распределение будет известно также и при альтернативе , то это еще лучше, тогда можно вычислить также вероятность ошибки II рода. Но такие ситуации в реальных задачах встречаются крайне редко, поскольку альтернатива обычно гораздо сложнее нулевой гипотезы.

    Применение квантилей в задачах оценивания параметров

    Рассмотрим задачу построения доверительного интервала для неизвестного числового параметра . При этом часто применяется следующая схема. Стараются найти такую случайную величину , которая зависит и от выборки, и от неизвестного параметра (и в силу этого не является статистикой), чтобы ее закон распределения был бы известен и не зависел бы от . Тогда можно для заданного уровня найти двусторонние квантили и записать следующее соотношение:

    Далее можно попробовать разрешить неравенство, стоящее под вероятностью, относительно неизвестного параметра, и переписать его в виде:

    чтобы величины и зависели бы только от выборки, т.е. являлись бы статистиками. Если это удается сделать, то мы построили доверительный интервал для неизвестного параметра.

    Выборочные квантили; статистическая оценка квантилей

    Выборочный -кванти́ль или выборочный квантиль порядка есть статистика, равная элементу вариационного ряда с номером (целая часть от ).

    Читайте также:  Чем отличается инфракрасная плита от индукционной

    Пусть — плотность, — функция распределения случайной величины . Тогда выборочные квантили порядка имеют при асимптотически k-мерное нормальное распределение с математическими ожиданиями, равными (не выборочным) квантилям и ковариациями

    Таким образом, выборочные квантили являются несмещёнными оценками обычных (не выборочных) квантилей.

    Асимптотическая нормальность позволяет также записать -процентный доверительный интервал для квантиля :

    Рассмотрим вычисление квантилей для некоторых функций распределений, представленных в MS EXCEL.

    Понятие Квантиля основано на определении Функции распределения. Поэтому, перед изучением Квантилей рекомендуем освежить в памяти понятия из статьи Функция распределения вероятности.

    Сначала дадим формальное определение квантиля, затем приведем примеры их вычисления в MS EXCEL.

    Определение

    Пусть случайная величина X, имеет функцию распределения F(x). α-квантилем (альфа-квантиль, xa, квантиль порядка α, нижний α-квантиль) называют решение уравнения xa=F -1 (α), где α — вероятность, что случайная величина х примет значение меньшее или равное xa, т.е. Р(х файл примера Лист Определение ):

    Примечание: О построении графиков в MS EXCEL можно прочитать статью Основные типы диаграмм в MS EXCEL.

    Например, с помощью графика вычислим 0,21-ю квантиль, т.е. такое значение случайной величины, что Р(X Примечание: При вычислении квантилей в MS EXCEL используются обратные функции распределения: НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР(), ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL.

    Точное значение квантиля в нашем случае можно найти с помощью формулы =НОРМ.СТ.ОБР(0,21)

    СОВЕТ: Процедура вычисления квантилей имеет много общего с вычислением процентилей выборки (см. статью Процентили в MS EXCEL).

    Квантили специальных видов

    Часто используются Квантили специальных видов:

    В качестве примера вычислим медиану (0,5-квантиль) логнормального распределения LnN(0;1) (см. файл примера лист Медиана ).

    Это можно сделать с помощью формулы =ЛОГНОРМ.ОБР(0,5; 0; 1)

    Квантили стандартного нормального распределения

    Необходимость в вычислении квантилей стандартного нормального распределения возникает при проверке статистических гипотез и при построении доверительных интервалов.

    Примечание: Про проверку статистических гипотез см. статью Проверка статистических гипотез в MS EXCEL. Про построение доверительных интервалов см. статью Доверительные интервалы в MS EXCEL.

    В данных задачах часто используется специальная терминология:

    • Нижний квантиль уровняальфа (α percentage point);
    • Верхний квантиль уровня альфа (upper α percentage point);
    • Двусторонние квантили уровняальфа.

    Нижний квантиль уровня альфа — это обычный α-квантиль. Чтобы пояснить название «нижний» квантиль, построим график плотности вероятности и функцию вероятности стандартного нормального распределения (см. файл примера лист Квантили ).

    Выделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение меньше α-квантиля. Из определения квантиля эта вероятность равна α. Из графика функции распределения становится понятно, откуда происходит название "нижний квантиль" — выделенная область расположена в нижней части графика.

    Для α=0,05, нижний 0,05-квантиль стандартного нормального распределения равен -1,645. Вычисления в MS EXCEL можно сделать по формуле:

    Однако, при проверке гипотез и построении доверительных интервалов чаще используется "верхний" α-квантиль. Покажем почему.

    Верхним αквантилем называют такое значение xα, для которого вероятность, того что случайная величина X примет значение больше или равное xα равна альфа: P(X>= xα)=α. Из определения понятно, что верхний альфаквантиль любого распределения равен нижнему (1-α)квантилю. А для распределений, у которых функция плотности распределения является четной функцией, верхний αквантиль равен нижнему αквантилю со знаком минус. Это следует из свойства четной функции f(-x)=f(x), в силу симметричности ее относительно оси ординат.

    Действительно, для α=0,05, верхний 0,05-квантиль стандартного нормального распределения равен 1,645. Т.к. функция плотности вероятности стандартного нормального распределения является четной функцией, то вычисления в MS EXCEL верхнего квантиля можно сделать по двум формулам:

    Читайте также:  Что с обновлениями windows 10

    Чтобы пояснить название «верхний» квантиль, построим график плотности вероятности и функцию вероятности стандартного нормального распределения для α=0,05.

    Выделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение больше верхнего 0,05-квантиля, т.е. больше значения 1,645. Эта вероятность равна 0,05.

    На графике плотности вероятности площадь выделенной области равна 0,05 (5%) от общей площади под графиком (равна 1). Из графика функции распределения становится понятно, откуда происходит название "верхний" квантиль выделенная область расположена в верхней части графика. Если Z больше верхнего квантиля, т.е. попадает в выделенную область, то нулевая гипотеза отклоняется.

    Также при проверке двухсторонних гипотез и построении соответствующих доверительных интервалов иногда используется понятие "двусторонний" α-квантиль. В этом случае условие отклонения нулевой гипотезы звучит как |Z|>Zα/2, где Zα/2верхний α/2-квантиль. Чтобы не писать верхний α/2-квантиль, для удобства используют "двусторонний" α-квантиль. Почему двусторонний? Как и в предыдущих случаях, построим график плотности вероятности стандартного нормального распределения и график функции распределения.

    Невыделенная площадь на рисунке соответствует вероятности, что случайная величина примет значение между нижним квантилем уровня α/2 и верхним квантилем уровня α/2, т.е. будет между значениями -1,960 и 1,960 при α=0,05. Эта вероятность равна в нашем случае 1-(0,05/2+0,05/2)=0,95. Если Z попадает в одну из выделенных областей, то нулевая гипотеза отклоняется.

    Вычислить двусторонний 0,05квантиль это можно с помощью формул MS EXCEL:
    =НОРМ.СТ.ОБР(1-0,05/2) или
    =-НОРМ.СТ.ОБР(0,05/2)

    Другими словами, двусторонние α-квантили задают интервал, в который рассматриваемая случайная величина попадает с заданной вероятностью α.

    Квантили распределения Стьюдента

    Аналогичным образом квантили вычисляются и для распределения Стьюдента. Например, вычислять верхний α/2-квантиль распределения Стьюдента с n-1 степенью свободы требуется, если проводится проверка двухсторонней гипотезы о среднем значении распределения при неизвестной дисперсии (см. эту статью).

    Для верхних квантилей распределения Стьюдента часто используется запись tα/2,n-1 . Если такая запись встретилась в статье про проверку гипотез или про построение доверительного интервала, то это именно верхний квантиль.

    Примечание: Функция плотности вероятности распределения Стьюдента, как и стандартного нормального распределения, является четной функцией.

    Чтобы вычислить в MS EXCEL верхний 0,05/2квантиль для t-распределения с 10 степенями свободы (или тоже самое двусторонний 0,05-квантиль), необходимо записать формулу
    =СТЬЮДЕНТ.ОБР.2Х(0,05; 10) или
    =СТЬЮДРАСПОБР(0,05; 10) или
    =СТЬЮДЕНТ.ОБР(1-0,05/2; 10) или
    =-СТЬЮДЕНТ.ОБР(0,05/2; 10)

    .2X означает 2 хвоста, т.е. двусторонний квантиль.

    Квантили распределения ХИ-квадрат

    При проверке таких гипотез также используются верхние квантили. Например, при двухсторонней гипотезе требуется вычислить 2 верхних квантиля распределения ХИ 2 : χ 2 α/2,n-1 и χ 2 1-α/2,n-1. Почему требуется вычислить два квантиля, не один, как при проверке гипотез о среднем, где используется стандартное нормальное распределение или t-распределение?

    Дело в том, что в отличие от стандартного нормального распределения и распределения Стьюдента, плотность распределения ХИ 2 не является четной (симметричной относительно оси х). У него все квантили больше 0, поэтому верхний альфа-квантиль не равен нижнему (1-альфа)-квантилю или по-другому: верхний альфа-квантиль не равен нижнему альфа-квантилю со знаком минус.

    Чтобы вычислить верхний 0,05/2квантиль для ХИ 2 -распределения с числом степеней свободы 10, т.е. χ 2 0,05/2,n-1, необходимо в MS EXCEL записать формулу
    =ХИ2.ОБР.ПХ(0,05/2; 10) или
    =ХИ2.ОБР(1-0,05/2; 10)

    Результат равен 20,48.
    .ПХ означает правый хвост распределения, т.е. тот который расположен вверху на графике функции распределения.

    Чтобы вычислить верхний (1-0,05/2)-квантиль при том же числе степеней свободы, т.е. χ 2 1-0,05/2,n-1 и необходимо записать формулу
    =ХИ2.ОБР.ПХ(1-0,05/2; 10) или
    =ХИ2.ОБР(0,05/2; 10)

    Результат равен 3,25.

    Квантили F-распределения

    При проверке таких гипотез используются, как правило, верхние квантили. Например, при двухсторонней гипотезе требуется вычислить 2 верхних квантиля F-распределения: Fα/2,n1-1,n2-1 и F1-α/2,n1-1,n2-1.
    Почему требуется вычислить два квантиля, не один, как при проверке гипотез о среднем? Причина та же, что и для распределения ХИ 2 – плотность F-распределения не является четной. Эти квантили нельзя выразить один через другой как для стандартного нормального распределения. Верхний альфа-квантиль F-распределения не равен нижнему альфа-квантилю со знаком минус.

    Читайте также:  Состояния заказов клиентов ут 11

    Чтобы вычислить верхний 0,05/2-квантиль для F-распределения с числом степеней свободы 10 и 12, необходимо записать формулу
    =F.ОБР.ПХ(0,05/2;10;12)
    =FРАСПОБР(0,05/2;10;12)
    =F.ОБР(1-0,05/2;10;12)

    Результат равен 3,37.
    .ПХ означает правый хвост распределения, т.е. тот который расположен вверху на графике функции распределения.

    Квантили распределения Вейбулла

    Иногда обратная функция распределения может быть представлена в явном виде с помощью элементарных функций, например как для распределения Вейбулла. Напомним, что функция этого распределения задается следующей формулой:

    После логарифмирования обеих частей выражения, выразим x через соответствующее ему значение F(x) равное P:

    Примечание: Вместо обозначения α-квантиль может использоваться pквантиль. Суть от этого не меняется.

    Это и есть обратная функция, которая позволяет вычислить Pквантиль (pquantile). Для его вычисления в формуле нужно подставить известное значение вероятности P и вычислить значение хp (вероятность того, что случайная величина Х примет значение меньше или равное хp равна P).

    Квантили экспоненциального распределения

    Задача: Случайная величина имеет экспоненциальное распределение:

    Требуется выразить p-квантиль xp через параметр распределения λ и заданную вероятность p.

    Примечание: Вместо обозначения α-квантиль может использоваться p-квантиль. Суть от этого не меняется.

    Решение: Вспоминаем, что p-квантиль – это такое значение xp случайной величины X, для которого P(X Похожие задачи

    Определение 1. Кванти́ль в математической статистике – число xp такое, что заданная случайная величина X превышает его лишь с фиксированной вероятностью p.

    Классное определение, но годится такое определение разве что для википедии, оно не конструктивно, т.е не пригодно для практических целей. Немного терпения, и вам станет понятно данное определение. Более того, вы с легкостью сможете находить квантили любого уровня, а также сможете применять данное понятие для решения задач по статистике.

    Попытка №2 — конструктивное определение квантиля:

    Определение 1*. Квантилью xp (p-квантилью, квантилью уровня p) случайной величины X, имеющей функцию распределения F (x), называют решение xp уравнения F (x) = p.

    Следовательно, для того чтобы найти квантиль xp необходимо найти решение уравнения F (x) = p.

    Для наглядности, найдем решение графически:

    1. Построим функцию распределения F(x);

    2. Построим горизонтальную линию уровня p;

    3. Находим точку пересечения данных линий, опускаем перпендикуляр на ось X, получаем квантиль xp (квантиль уровня p) смотри рисунок 1.

    Аналогично для дискретной случайной величины X смотри рисунок 2.

    Замечание. Для дискретной случайной величины X функция распределения F(x) имеет ступенчатый вид, функция не монотонна. Поэтому решение уравнения F(x) = p в общем случае не однозначно ( в решение попадают интервалы). В таких случаях, для определенности квантилем назначают средину интервала, как показано на рис.2.

    Квантили удобны для сравнения различных законов распределения вероятностей. В некоторых случаях пользуются децилями: x0,1 , x0,2 , x0,3 , …, x0,9 . Однако наибольшее распространение получили квартили. Квартилями называют квантили порядков 0,25, 0,5 и 0,75. Будем их обозначать соответственно как k1 , k2 , k3 . Квартили k1 и k3 называют обычно нижней и верхней квартилями. Вторая квартиль k2 совпадает с медианой распределения.

    Определение 2. Децилями называют квантили уровня 0,1, 0,2, 0,3, . 0,9, обозначают соответственно d1, d2, d3. d9.

    Определение 3. Квартилями называют квантили порядков 0,25, 0,5 и 0,75, обозначают соответственно k1 , k2 , k3 .

    Определение 4. Медианой называют квантиль уровня 0,5,

    обозначают Me = x0,5.

    Ну вот, пришло время, на конкретном примере показать, как находить квантили.

    Пример. Пусть имеется выборка дискретной случайной величины X:

    3 1 5 1 2 4 5 3 4
    2 4 2 2 3 1 3 2 1
    4 3 2 1 4 2 3 2

    Найти квантили уровня 0,2 и 0,3 ( x0,2 и x0,3 )

    1) Находим функцию распределения дискретной случайной величины:

    Вариант Частота Частность F(X)
    4 0,133333 0,133333
    1 5 0,166667 0,3
    2 8 0,266667 0,566667
    3 6 0,2 0,766667
    4 5 0,166667 0,933333
    5 2 0,066667 1

    2) Строим график функции распределения, проводим линии уровня p = 0,2 и p = 0,3,

    3) получаем квантили: x0,2 = 1, x0,3 = 1,5, или, можно сказать так, получаем децили d2=1, d3=1,5

    Комментировать
    0 просмотров
    Комментариев нет, будьте первым кто его оставит

    Это интересно
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    No Image Компьютеры
    0 комментариев
    Adblock detector