Untitled

\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[utf8]{inputenc}
\usepackage[scale=0.75]{geometry}
\usepackage[T1,T2A]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[english,russian]{babel}

\usepackage[pdftex]{graphicx}
\usepackage[colorinlistoftodos]{todonotes}
\usepackage{cancel}
\usepackage{amsmath}
\usepackage{natbib}
\usepackage{graphicx}

\begin{document}


\begin{titlepage}
\begin{center}

\textbf{Правительство Российской Федерации}
\vspace{0.5cm}

Федеральное государственное автономное\\образовательное учреждение\\высшего профессионального образования
\vspace{2mm}
\\"Национальный исследовательский университет -\\Высшая школа экономики"
\vspace{0.25cm}

Факультет математики

\vfill

\Huge Двухвыборочная задача о рассеивании (масштабе). Ранговый критерий (Ансари-Брэдли).

\bigskip

\end{center}

\vfill

\begin{flushright}

\textbf{Студент группы №3.11.2:}\\
Нестеров Роман Эдуардович

\hfill

\textbf{Научный руководитель:}\\
Профессор-исследователь факультета социальных наук
\\Шмерлинг Дмитрий Семенович


\end{flushright}
\vfill

\begin{center}
Москва, 2018 г.
\end{center}
\end{titlepage}
\newpage


\section{Теория. Свободный от распределения ранговый критерий (Ансари-Брэдли)}

\textit{Данные:} Мы получаем $N = m + n$ наблюдений $X_1, \ldots , X_n$ и $Y_1, \ldots , Y_n$.

В решении задачи нам помогут 3 допущения:
\begin{enumerate}
\item Берем модель $X_1 = \sigma e_i + \mu$ , $i = 1, \ldots , m$ , и $Y_j = \sigma_2 e_{m+j} + \mu$ , $j = 1, \ldots , n$,
где $e_1, \ldots , e_{m+n}$ -- ненаблюдаемые случайные величины; $\mu$ -- неизвестный мешающий параметр (общая медиана совокупностей X и Y), нас интересует параметр $ \gamma = \sigma_2 / \sigma_1 $ .
\item Все N случайных величин $e$ взаимно независимы.
\item Все $e$ извлечены из одной и той же непрерывной совокупности, медиана которой равна нулю.
\end{enumerate}

\textit{Метод:} Для проверки $$H_0 : \gamma^2 = 1$$ необходимо проделать следущее.

\begin{enumerate}
\item Упорядочить N наблюдений от меньшего к большему.
\item Наименьшему и наибольшему из наблюдений в объединенной выборке присвоить ранг 1, следующим среди наименьших и наибольших присвоить ранг 1, следующим среди наименьших и наибольших присвоить ранг 2 и продолжить ранжирование тем же способом. Если N - четно, то расположение рангов будет $1,2,3 \ldots, N/2, N/2, \ldots , 3,2,1$ ; если же N - нечетно, то расположение рангов будет $1,2,3 \ldots , (N-1)/2,(N+1)/2,(N-1)/2, \ldots , 3,2,1$ .
\item Обозначим ранг $X_i$ в упомянутой ранжировке через $R_i$ и положим $$\widetilde{W} = \sum_{i=1}^m R_i$$

Статистика $\widetilde{W}$ есть сумма рангов, относящихся к X.
\item Для одностороннего критерия $H_0 (H_0 : \gamma = 1) $ против альтернативы $\gamma^2 > 1$ на уровне значимости $\alpha$ нужно:
\begin{center}
\begin{equation*}

  \begin{cases}
    \text{Отклонить} & $H_0$, если $\widetilde{W} \ge \omega_2 (\alpha , m , n)$,
    \\
    \text{Принять} & $H_0$ , если $\widetilde{W} < \omega_2 (\alpha , m , n)$
  \end{cases}
\end{equation*}
\end{center}
где константа $\omega_2 (\alpha , m , n)$ удовлетворяет уравнению $P_0 [ \widetilde{W} \ge \omega_2 (\alpha , m , n) ] = \alpha$. Значения $\omega_2 (\alpha , m , n)$ приведены в таблице вероятности верхнего хвоста распределения статистики $\widetilde{W}$, когда выполняется нулевая гипотеза.

Для одностороннего критерия $H_0$ против альтернативы $\gamma^2 < 1$ на уровне значимости \alpha следует:

\begin{center}
\begin{equation*}

  \begin{cases}
    \text{Отклонить} & $H_0$, если $\widetilde{W} \le \omega_1 (\alpha , m , n)$,
    \\
    \text{Принять} & $H_0$ , если $\widetilde{W} > \omega_1 (\alpha , m , n)$
  \end{cases}
\end{equation*}
\end{center}


где константа $\omega_2 (\alpha , m , n)$ удовлетворяет уравнению $P_0 [ \widetilde{W} \ge \omega_1 (\alpha , m , n) ] = \alpha$. Значения $\omega_1 (\alpha , m , n)$ приведены в таблице вероятности верхнего хвоста распределения статистики $\widetilde{W}$, когда выполняется нулевая гипотеза.

Для двустороннего критерия $H_0$ против альтернативы $\gamma^2 \ne 1$ на уровне значимости \alpha следует:

\begin{center}
\begin{equation*}

  \begin{cases}
    \text{Отклонить} & $H_0$, если $\widetilde{W} \ge \omega_2 (\alpha , m , n)$ или $\widetilde{W} \le \omega_1 (\alpha , m , n)$,
    \\
    \text{Принять} & $H_0$ , если $\omega_1 (\alpha , m , n) < \widetilde{W} < \omega_2 (\alpha , m , n)$
  \end{cases}
\end{equation*}
\end{center}
где $\alpha = \alpha_1+\alpha_2$.
\end{enumerate}

\textit{Приближение для большой выборки}. Положим $$ \widetilde{W}^{*} = \frac{\widetilde{W} - E_0(\widetilde{W})}{\{var_0(\widetilde{W}^{*})\}^{1/2}} =$$

\begin{center}
\begin{equation*}
    =
    \begin{cases}
    $ & \frac{\widetilde{W} - [m(m+n+2)/4]}{((mn(m+n+2)(m+n-2)/[48(m+n-1)])^{1/2}} $ , если $m+n$ -- четное
    \\
    $ & \frac{\widetilde{W} - (m(m+n+1)^2/[4(m+n)]}{(mn(m+n+1)[3+(m+n)^2]/48(m+n)^2]^{1/2}}$ , если $m+n$ -- нечетное.
    \end{cases}
\end{equation*}
\end{center}

Если $H_0$ верна, то статистика $\widetilde{W}^{*}$ асимптотически ( при min $(m,n) \to \inf ) $ распределена как $N(0,1)$

Нормальное приближение для метода (4) таково:
\begin{center}
\begin{equation*}
    \begin{cases}
    \text{отклонить} & $H_0$ , если $\widetilde{W} \ge z_{(\alpha)}$
    \\
    \text{принять} & $H_0$ , если $\widetilde{W} < z_{(\alpha)}$
    \end{cases}
\end{equation*}
\end{center}

\textit{Связи}. Если среди N наблюдений есть одинаковые, то для вычисления $\widetilde{W}$ следует использовать связанные ранги и действовать так же, как в пункте (4) при применении критерия для малых выборок. Применяя приближение для большой выборки, следует вычислять $\widetilde{W}$ по средним рангам и заменить $var_0 (\widetilde{W})$ в формуле приближения для большой выборки на $$ var_0 ( \widetilde{W}) = \frac{mn[16 \sum_{j=1}^g t_j r_j^2 - (m+n)(m+n+2)^2]}{16(m+n)(m+n+1)}$$
если $m+n$ -- четное. Если же $m+n$ -- нечетное, то $$ var_0 ( \widetilde{W}) = \frac{mn[16(m+n) \sum_{j=1}^g t_j t_j^2 - (m+n+1)^4]}{16(m+n)^2(m+n-1)} $$
где g -- число связанных групп среди N наблюдений, $t_j$ -- объем связанной группы с номером j, $r_j$ -- средний ранг наблюдений в связанной группе j.
\section{Пример}

Пусть у нас есть известный метод исследования (1) и предложенный метод (2). Вначале проделаем 20 пар анализов обоими методами. И пусть реальное значении величины, метод для определения которой мы хотим исследовать, равно 100. Хотим узнать, какой метод имеет большую точность. Проверим альтернативу о том, что рассеивание предложенного метода (2) больше чем у известного метода (1). Следовательно, обозначая через $X$ результаты, полученные по методу (1), а через $Y$ -- по методу (2), надо проверять $H_0$ против альтернативы $\gamma^2 > 1$. На уровне около $\alpha = .05$ получаем $z_{(0.05)} = 1.645$

\begin{figure}[h!]
\centering
\includegraphics[scale=1]{pic2.png}
\caption{Результаты исследований методами (1) и (2)}
\label{fig:universe}
\end{figure}

Далее я, используя excel,  проранжировал все измерения, и получил $\widetilde{W} = \sum^m_{i=1} R_i = 106$. Теперь для получения $\widetilde{W}^{*}$ остается найти $var_0(\widetilde{W})$. Поскольку $m+n=40$ -- пользуемся формулой для четного числа. Также надо посчитать $\sum^g_{j=1} t_j r_j^2$. Выясняем, что оно равно 232. Теперь у нас есть все данные для расчета $\widetilde{W}^{*}$ :
$$\widetilde{W}^{*} =\frac{(106-(20*42/4))}{((400*(41*(3+40^2)/(48*40^2))^{1/2}} = -0.281,$$
что нас приводит к принятию $H_0$ на уровне $\alpha = 0.5$, поскольку $\widetilde{W}^{*} = -0.281 < 1.635 = z_{(.05)}$ Следовательно, нет достаточных оснований считать, что предложенный метод связан с потерей точности по сравнению с методом (1).

\section{Вывод}

Непараметрические аналоги критериев проверки однородности дисперсий предназначены для проверки гипотез о принадлежности двух выборок
общей генеральной совокупности с одинаковыми характеристиками рассеяния. При этом, как правило, предполагается равенство средних.


Рассмотренный мной пример помогает исследовать новые методы измерений, узнавать их точность, когда мы можем знать значение медианы распеределения.

Также я смог провести исследование на своих данных, используя ранговый критерий Ансари-Брэдли.


%\bibliographystyle{plain}
\bibliography{references}

\begin{thebibliography}{4}
\bibitem{ }
Hollander M., Wolfe D., Chicken E. Nonparametric Statistical Methods. – Hoboken, Ns: Wiley Series in Probability and Statistics. Third Edition John Wiley and Sons., 2013 – XVIII

\end{thebibliography}

\end{document}