Главная Статьи Управление капиталом Статистика для трейдера. Лекция №5. Нормальное распределение и его обобщение
Статистика для трейдера. Лекция №5. Нормальное распределение и его обобщение
08.05.2012 09:00

В предыдущей лекции нами были рассмотрены наиболее элементарные и популярные распределения случайных величин. Здесь мы более подробно познакомимся с нормальным распределением в виду его особой важности для теории и практики, а также продемонстрируем один из возможных способов его обобщения на более широкие классы вероятностных явлений.


Нормальный закон

Про нормальное распределение написана куча книг и статей, в том числе и научно-популярного характера. Все это вы при желании легко сможете найти в сети. Здесь мы зафиксируем лишь некоторые самые важные или примечательные факты. Для начала, чтобы продвинуться в понимании, «демистифицируем» формулу для плотности вероятности нормального закона:


exp{-½[(x - µ)/σ]2}/σ/(2π)½


Так она выглядит в строчном варианте записи. Новичку такая конструкция может показаться довольно устрашающей. На самом деле общую форму нормального распределения – знаменитую колоколобразную кривую задает гораздо более простая формула:


exp{-x2}


Под знаком экспоненты стоит знакомая еще со школы функция x2– парабола. Знак минус переворачивает эту кривую «вверх ногами». Так, в первом приближении уже получается кривая почти пригодная для плотности вероятности – пик в центре, убывание по краям. Однако эта функция не ограничена снизу и может принимать отрицательные значения, что для такой величины как вероятность является нонсенсом. Тут на помощь приходит экспонента, под знак которой вставляется наша перевернутая парабола (композиция функций). Такая кривая уже будет положительной на всей оси x и стремится к нулю при движении в плюс или минус бесконечность, что согласуется с интуитивным представлением о том, что вероятность экстремальных событий стремится к нулю.

Можно пойти дальше и ввести параметры µ и σ. «Мю» задает положение пика кривой на горизонтальной оси, а «сигма» степень «раздутости» относительно центра. Все остальные элементы в формуле для нормальной плотности нужны только для того, что бы площадь этой кривой равнялась единице – формальное условие для закона распределения. Как правило, вся сложность формул и для других законов возникает в результате этой нормировки. Сама же общая форма кривых обычно задается достаточно простыми выражениями.


Максимальность энтропии

Нормальное распределение обладает свойством максимальной энтропии. Это означает, что если о какой-то случайной величине вам известны только среднее (µ) и стандартное отклонение (σ) – типичный размах колебаний, на финансовом жаргоне – волатильность, то наиболее вероятным «кандидатом» для ее моделирования является нормальный закон, т.е. используя в таких ситуациях нормальное распределение, вы в среднем ошибетесь меньше, чем если бы использовали какое-то другое распределение вероятностей. По этой причине нормальное распределение является простейшим законом пригодным для моделирования доходностей финансовых активов, которые часто описываются через среднюю доходность и волатильность. Точно так же, если для величины известен лишь диапазон ее колебаний, следует использовать равномерное распределение на этом интервале. Свойство максимальной энтропии можно еще проиллюстрировать следующим примером. Допустим, ваш знакомый давно торгует каким-то инструментом. В статистике он не разбирается, но «интуитивно» за годы торговли он изучил его «вдоль и поперек» и по его наблюдениям типичное дневное колебание цены составляет 1.5%. Если он попросит вас подсчитать вероятность какого-либо движения по этому инструменту, вам в отсутствие других данных наиболее естественно будет использовать нормальное распределение с параметрами µ=0 и σ=0.015. «Мю» обнуляем в предположении, что на дневных «свечках» волатильность значительно преобладает над доходностью, что, в общем-то, подтверждается историческими котировками по многим инструментам.


Центральная предельная теорема

Еще одно важнейшее свойство касается т.н. «центральной предельной теоремы». Если не вдаваться в тонкости, упрощенно ее можно сформулировать так: сумма большого числа слабо зависимых случайных величин, будет распределена почти нормально. Если не верите, можете провести эксперимент в каком-нибудь пакете для анализа данных. Сгенерируйте, напр., 10 случайных величин, равномерно распределенных на интервале -1 +1 длинной в 100 наблюдений и просуммируйте их. В Matlab, напр., этом можно сделать так: sum(unifrnd(-1,1,10,100)). Несмотря на то, что равномерное распределение исходных слагаемых совсем не похоже по форме на кривую нормальной плотности, гистограмма их суммы уже будет напоминать «колокол». Соответственно распределение доходностей хорошо диверсифицированного портфеля будет гораздо ближе к нормальному, чем распределения его компонентов. Аналогичная ситуация наблюдается и при временной агрегации доходностей: так дневные доходности могут резко отклонятся от нормального закона, а квартальные уже быть гораздо ближе к нему. Объясняется это тем, что резкие ценовые прыжки, возникающие на «микроскопическом» уровне рынка и порождающие «толстые хвосты» у кривой плотности, при переходе к более продолжительным интервалам, все более и более сглаживаются и, в конце концов, совсем «тонут» в подавляющей массе типичных умеренных ценовых движений. Таким образом, чем больше в портфеле компонентов и чем более длинный инвестиционный интервал рассматривается, тем ближе будет распределение его доходностей к нормальному закону. В русле ЦПТ также находится и тот факт, что сумма независимых нормальных распределений также является нормально распределенной случайной величиной с µ=µ1 + µ2 и σ212 + σ22 (суммируются не стандартные отклонения, а их квадраты – дисперсии). Такое свойство делает нормальное распределение очень удобным для моделирования инвестиционных портфелей, поскольку распределение доходностей портфеля легко выводится из распределений его компонентов. Это свойство является практически уникальной характеристикой нормального закона – никакие другие простые и удобные распределения им не обладают.


Коэффициент Шарпа

Нормальное распределение задается при помощи всего двух параметров – µ и σ. Оказывается, их отношение, называемое в финансовой литературе коэффициентом Шарпа, обладает интересным свойством для нормального распределения. Согласно модели нормального распределения любые два актива с одинаковыми коэффициентами Шарпа имеют одинаковую вероятность убытка x<0 на том или ином временном диапазоне. Получается, что риск в модели нормального распределения зависит, по сути, только от одного параметра – коэффициента Шарпа: вероятность убытков одинакова, а их размеры можно уравнять при помощи финансового рычага, напр., вкладывая меньшую долю средств в актив с более высокой волатильностью, поскольку плечо одинаково воздействует как на среднюю доходность, так и на стандартное отклонение, их отношение не меняется, а размах колебаний доходности можно понизить, тем самым, уравняв убытки.

Примечание: на самом деле это не совсем точно, поскольку коэффициенты Шарпа для обычных доходностей и логдоходностей несколько отличаются, но мы здесь не будем углубляться в эти тонкости.


Логнормальное распределение

До сих пор мы достаточно вольно обращались с термином «доходность». На самом деле во всех случаях, когда мы имели дело с нормальным распределением, мы говорили не об обычных доходностях вида Close/Open - 1, а о т.н. «логдоходностях» – ln(Close/Open). Эта величина в отличие от более привычной для большинства трейдеров обычной доходности симметрична и поэтому лучше подходит для моделирования при помощи нормального распределения, у которого левый хвост формально уходит в минус бесконечность. Обычная же доходность не может быть меньше -1 или -100%, если обращаться с процентами. Этот факт связан с тем, что цена упирается в ноль как в нижнюю границу. Логдоходности как раз и исправляют такую асимметрию, поскольку они могут изменяться в интервале от -∞ до +∞. Если же мы хотим иметь дело не с логдоходностями, а с обычными доходностями, нам следует использовать не нормальное, а логнормальное распределение. Логнормальное распределение предназначено для моделирования величин варьирующихся в интервале от 0 до +∞. Если, используя модель простой доходности, вычесть единицу, получается искомый интервал от -1 до +∞. По большому счету практически нет разницы, работать с обычными доходностями при помощи логнормального распределения или с логдоходностями в рамках нормального. Эти величины и распределения однозначно связываются преобразованиями вида ln(x) – exp(x). Используя функции логарифма и экспоненты можно легко переходить из одной шкалы в другую и обратно в исходную. На практике при оценке по выборке тех или иных статистик, пожалуй, все-таки удобнее работать с логдоходностями и нормальным распределением, поскольку не представляет никакой сложности перевести полученные результаты в формат обычных доходностей, что и демонстрируется в следующей части лекции.


Обобщенное нормальное распределение

Нормальное распределение, по сути, является очень простой кривой. Как часто бывает в жизни, реальные величины показывают более сложное поведение, чем нам бы хотелось в рамках тех или иных моделей. Для реальных массивов доходностей тех или иных активов характерны, прежде всего, т.н. «толстые хвосты». Экстремально низкие и высокие доходности появляются гораздо чаще, чем «предписывает» нормальный закон. Особенно ярко это проявляется на мелких тайм-фреймах – от дневного и короче. К счастью, описать эти реальные рыночные явления можно при помощи несколько более сложного, но по-прежнему аналитически трактуемого класса распределений – обобщенного нормального. В литературе оно известно и под многими другими именами: обобщенное экспоненциальное, обобщенное распределение Лапласа и т.п. Мы же будем называть его обобщенное нормальное распределение, поскольку оно выглядит его натуральным обобщением и к тому же наследует важное свойство максимальной энтропии. Если нам известны только среднее значение, стандартное отклонение и эксцесс, наиболее естественным выбором в таких условиях будет ОНР.

Плотность вероятности обобщенного нормального распределения выражается следующим образом:


exp{-|(x - µ)/K/σ|τ}/(2Γ(1+1/τ)Kσ),


где K = [Γ(1/τ)/Γ(3/τ)]½, Γ() – гамма-функция.

В целом формула довольно похожа на плотность обычного нормального распределения. Самое существенное изменение проявляется в том, что под знаком экспоненты теперь возводим не в квадрат, а в произвольную степень «тау». В этом и заключается суть обобщения.


Плотность вероятности ОНР


Параметр τ позволяет моделировать эксцесс (у обычного НР он нулевой) и «толстые хвосты». Обобщенное нормальное распределение охватывает широкий спектр кривых. Так, при τ=1 имеем распределение Лапласа, при τ=2 обычное нормальное распределение, при τ→∞ равномерное. На практике при работе с финансовыми данными, скорее всего, будут встречаться τ<2, поскольку при τ>2 имеем плосковершинное распределение, у которого хвосты даже тоньше, чем у нормального, что для реальных доходностей совершенно нетипично. Как видно на картинке выше (на ней показана плотность вероятности логдоходностей трех гипотетических акций с одинаковыми µ и σ, но разными τ), именно «толстые хвосты» являются главным источником риска, поскольку при тех же средних и стандартных отклонениях вероятности экстремальных движений для таких активов выше.


Подгонка

Нас как практиков больше всего интересует, как подгонять параметры теоретической модели к реальным данным. Подгонка параметров ОНР может осуществляться двумя основными методами: методом максимального правдоподобия и методом моментов. Метод максимального правдоподобия является более точным, но для реализации он требует специального софта. Напр., о том, как его применять в системе Matlab, можно прочитать в отдельном уроке. Метод моментов более простой, и его можно реализовать даже в Excel. Первые два параметра обобщенного нормального распределения µ и σ – это просто среднее и стандартное отклонение. Эти статистики можно вычислить при помощи функций СРЗНАЧ() и СТАНДОТКЛОН(). Найти параметр τ несколько сложнее. Для этого сначала надо вычислить коэффициент эксцесса – ε, что в Excel делается через функцию ЭКСЦЕСС(). Имеется формула связывающая τ и ε: ε = Γ(1/τ)Γ(5/τ)/Γ(3/τ)2 - 3. К сожалению, она работает «не в ту сторону», так как позволяет найти эксцесс через показатель степени τ, а нас интересует обратная задача. Тем не менее, можно воспользоваться одним из переборных методов. В Excel для этого служит модуль «Поиск решения». Сначала надо задать формулу для ε. В Excel это выражение выглядит следующим образом:

EXP(ГАММАНЛОГ(1/τ)+ГАММАНЛОГ(5/τ)-2*ГАММАНЛОГ(3/τ))-3.

Удобно присвоить какой-либо ячейке имя «x», а в качестве стартового значения в нее ввести 2 – это показатель степени τ для обычного нормального распределения, который является логичным вариантом, с которого надо начинать поиск. Тогда в другую ячейку можно вставить функцию:

EXP(ГАММАНЛОГ(1/x)+ГАММАНЛОГ(5/x)-2*ГАММАНЛОГ(3/x))-3

Если вы все ввели правильно, то в этой ячейке будет стоять 0, так как эксцесс нормального распределения (т.е. ОНР с τ=2) ε=0.

Допустим, показатель эксцесса, вычисленный по истории котировок на дневных данных, составил 3. Нам надо найти значение τ, соответствующее такому эксцессу. Выделяем ячейку с формулой и запускаем во вкладке Данные/Анализ процедуру «Поиск решения». В появившемся окошке указываем «Установить целевую ячейку равной значению 3, изменяя ячейки: x» и нажимаем выполнить. Ячейка x примет значение 1. Это и есть показатель τ, соответствующий эксцессу 3.


Вычисление вероятностей и риск-метрик

Итак, мы научились подгонять параметры обобщенного нормального распределения к историческим котировкам активов. Как только параметры идентифицированы, становится возможным вычисление интересующих вероятностей и расчет рисков в рамках модели ОНР. Предположим, что мы получили следующие оценки параметров: µ=0.001, σ=0.03, τ=0.75. Такие цифры вполне можно получить для дневных доходностей какой-нибудь акции или индекса. Давайте теперь вычислим некоторые интересные вероятности и риск-метрики.

Так, кто-то может заинтересоваться вопросом: какова вероятность дневного падения цены, превышающего 9%. Для ответа на этот вопрос надо использовать функцию распределения. Для ОНР ее можно выразить через кумулятивную функцию гамма-распределения:


½+½sign(x - µ)GCDF[|(x - µ)/K/σ|τ, 1/τ, 1],


где sign() – функция знака, возвращающая -1 для отрицательного и +1 для положительного числа, GCDF() – кумулятивная функция гамма-распределения.

В Excel это можно записать так:

0.5+0.5*ЗНАК(x-µ)*ГАММАРАСП(ABS((x-µ)/K/σ)^τ;1/τ;1)

Естественно, нужно задать конкретные значения параметров:

0.5+0.5*ЗНАК(LN(1-0.09)-0.001)*ГАММАРАСП(ABS((LN(1-0.09)-0.001)/K/0.03)^0.75;1/0.75;1;1)

K = EXP(0.5*(ГАММАНЛОГ(1/τ)-ГАММАНЛОГ(3/τ))) лучше сохранить в отдельную ячейку присвоив ей имя K, чтобы не перегромождать формулу.

Итак, имеем K = EXP(0.5*(ГАММАНЛОГ(1/0.75)-ГАММАНЛОГ(3/0.75))) ≈ 0.3858. Искомая вероятность: ≈0.78%, т.е. это событие не такое уж редкое и должно в среднем происходить раз в 1/0.0078 ≈ 128 дней.

Следует отметить, что в формулу мы подставляли не исходную доходность -0.09, а LN(1-0.09). Тем самым мы ее конвертировали в логдоходность, для работы с которыми и предназначено обобщенное нормальное распределение.


Можно задаться и обратным вопросом: какой убыток будет превышен в худшем дне в году? Иными словами нам надо найти убыток соответствующий вероятностному уровню 1/250 = 0.004. Предполагается, что в году 250 торговых дней. Для этого надо воспользоваться квантильной функцией. Как и кумулятивная функция, она может быть выражена через гамма-распределение:


sign(2p - 1)GINV(|2p - 1|, 1/τ, 1)1/τ Kσ + µ,


где GINV() – квантильная функция гамма-распределения.

В Excel:

ЗНАК(2*p-1)*ГАММАОБР(ABS(2*p-1);1/τ;1)^(1/τ)*K*σ+µ

Аналогично предыдущему примеру подставляем конкретные значения и получаем:

EXP(ЗНАК(2*0.004-1)*ГАММАОБР(ABS(2*0.004-1);1/0.75;1)^(1/0.75)*K*0.03+0.001)-1 ≈ -10.7%,

т.е. как минимум такой убыток будет получен в худшем дне в году.

Здесь мы опять использовали трансформации. На сей раз, мы переводили логдоходности, которые дает на выходе квантильная функция обобщенного нормального распределения, в обычные доходности и поэтому использовали экспоненту.


Наконец, можно узнать средний размер убытка, который будет получен в худшем дне в году. Ясно, что он больше 10.7%. Точный ответ на этот вопрос дает риск-метрика под названием Conditional Value-at-Risk, CVaR. Предыдущая квантильная функция в риск-менеджменте называется просто VaR. Выражение для CVaR наиболее сложное:


µ - KσΓ(2/τ)/Γ(1/τ)/2/p{1 - GCDF[GINV(|2p - 1|, 1/τ, 1), 2/τ, 1]}


Для Excel получаем:

µ-K*σ*EXP(ГАММАНЛОГ(2/τ)-ГАММАНЛОГ(1/τ))/2/p*(1-ГАММАРАСП(ГАММАОБР(ABS(2*p-1);1/τ;1);2/τ;1;1))

K у нас уже подсчитано, остается только задать значения остальным параметрам:

EXP(0.001-K*0.03*EXP(ГАММАНЛОГ(2/0.75)-ГАММАНЛОГ(1/0.75))/2/0.004*(1-ГАММАРАСП(ГАММАОБР(ABS(2*0.004-1);1/0.75;1);2/0.75;1;1)))-1

Получаем средний убыток худшего дня в году: 13.36%.

Здесь мы, как и в случае с VaR, использовали экспоненту, чтобы перейти от логдоходностей к обычным доходностям.


Итоги

В этой лекции мы более тесно познакомились с нормальным распределением, узнали наиболее важные его свойства и причины его популярности в финансах. Было также рассмотрено его обобщение, позволяющее более точно моделировать исторические доходности активов. Мы научились оценивать параметры обобщенного нормального распределения по выборке методом моментов и узнали, как рассчитывать важные для практики вероятности и риск-метрики в Excel. Возможно, некоторым читателям ближе система Matlab. В этом случае рекомендуем обратиться к специальному уроку.



© q-trader

[обсудить на форуме]


 

Добавить комментарий


Защитный код
Обновить



© 2010–2012. Все права защищены.
Копирование материалов, размещенных на сайте, разрешается только с рабочей ссылкой на источник.



| О проекте |  Правовая информация |
|  Напишите нам |  Карта сайта |



  

 Новости
главные новости экономики и финансовых рынков: события, мнения, прогнозы.

 Статьи
материалы по теханализу, фундаментальному анализу, управлению капиталом (манименеджмент) и др.

 Рынки
фондовый, валютный, товарный рынки: исторические обзоры, динамика, доходность, корреляции.

 Калькуляторы
xls-калькуляторы для оптимизации размера и структуры торговой позиции; опционные калькуляторы.

 Софт
торговые терминалы, программы для теханализа, оптимизации систем и др.: статьи, обзоры, видеоуроки.

 Архив котировок
индексы, валюты, сырье: многолетние истории котировок в форматах .xls и .txt.

 Индикаторы
ºSiX – индикатор настроения рынка на основе расчета соотношения количества опционных контрактов put и call.

 Библиотека
собрание книг, которые рекомендуется прочесть каждому трейдеру в первую очередь.

 Словарь
толкование основных экономических, финансовых терминов, трейдерский сленг.

 Форум
обсуждение материалов сайта и любых вопросов трейдинга и инвестирования.