Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- \documentclass{article}
- \usepackage[utf8]{inputenc}
- \usepackage[utf8]{inputenc}
- \usepackage[scale=0.75]{geometry}
- \usepackage[T1,T2A]{fontenc}
- \usepackage[utf8]{inputenc}
- \usepackage[english,russian]{babel}
- \usepackage[pdftex]{graphicx}
- \usepackage[colorinlistoftodos]{todonotes}
- \usepackage{cancel}
- \usepackage{amsmath}
- \usepackage{natbib}
- \usepackage{graphicx}
- \begin{document}
- \begin{titlepage}
- \begin{center}
- \textbf{Правительство Российской Федерации}
- \vspace{0.5cm}
- Федеральное государственное автономное\\образовательное учреждение\\высшего профессионального образования
- \vspace{2mm}
- \\"Национальный исследовательский университет -\\Высшая школа экономики"
- \vspace{0.25cm}
- Факультет математики
- \vfill
- \Huge Двухвыборочная задача о рассеивании (масштабе). Ранговый критерий (Ансари-Брэдли).
- \bigskip
- \end{center}
- \vfill
- \begin{flushright}
- \textbf{Студент группы №3.11.2:}\\
- Нестеров Роман Эдуардович
- \hfill
- \textbf{Научный руководитель:}\\
- Профессор-исследователь факультета социальных наук
- \\Шмерлинг Дмитрий Семенович
- \end{flushright}
- \vfill
- \begin{center}
- Москва, 2018 г.
- \end{center}
- \end{titlepage}
- \newpage
- \section{Теория. Свободный от распределения ранговый критерий (Ансари-Брэдли)}
- \textit{Данные:} Мы получаем $N = m + n$ наблюдений $X_1, \ldots , X_n$ и $Y_1, \ldots , Y_n$.
- В решении задачи нам помогут 3 допущения:
- \begin{enumerate}
- \item Берем модель $X_1 = \sigma e_i + \mu$ , $i = 1, \ldots , m$ , и $Y_j = \sigma_2 e_{m+j} + \mu$ , $j = 1, \ldots , n$,
- где $e_1, \ldots , e_{m+n}$ -- ненаблюдаемые случайные величины; $\mu$ -- неизвестный мешающий параметр (общая медиана совокупностей X и Y), нас интересует параметр $ \gamma = \sigma_2 / \sigma_1 $ .
- \item Все N случайных величин $e$ взаимно независимы.
- \item Все $e$ извлечены из одной и той же непрерывной совокупности, медиана которой равна нулю.
- \end{enumerate}
- \textit{Метод:} Для проверки $$H_0 : \gamma^2 = 1$$ необходимо проделать следущее.
- \begin{enumerate}
- \item Упорядочить N наблюдений от меньшего к большему.
- \item Наименьшему и наибольшему из наблюдений в объединенной выборке присвоить ранг 1, следующим среди наименьших и наибольших присвоить ранг 1, следующим среди наименьших и наибольших присвоить ранг 2 и продолжить ранжирование тем же способом. Если N - четно, то расположение рангов будет $1,2,3 \ldots, N/2, N/2, \ldots , 3,2,1$ ; если же N - нечетно, то расположение рангов будет $1,2,3 \ldots , (N-1)/2,(N+1)/2,(N-1)/2, \ldots , 3,2,1$ .
- \item Обозначим ранг $X_i$ в упомянутой ранжировке через $R_i$ и положим $$\widetilde{W} = \sum_{i=1}^m R_i$$
- Статистика $\widetilde{W}$ есть сумма рангов, относящихся к X.
- \item Для одностороннего критерия $H_0 (H_0 : \gamma = 1) $ против альтернативы $\gamma^2 > 1$ на уровне значимости $\alpha$ нужно:
- \begin{center}
- \begin{equation*}
- \begin{cases}
- \text{Отклонить} & $H_0$, если $\widetilde{W} \ge \omega_2 (\alpha , m , n)$,
- \\
- \text{Принять} & $H_0$ , если $\widetilde{W} < \omega_2 (\alpha , m , n)$
- \end{cases}
- \end{equation*}
- \end{center}
- где константа $\omega_2 (\alpha , m , n)$ удовлетворяет уравнению $P_0 [ \widetilde{W} \ge \omega_2 (\alpha , m , n) ] = \alpha$. Значения $\omega_2 (\alpha , m , n)$ приведены в таблице вероятности верхнего хвоста распределения статистики $\widetilde{W}$, когда выполняется нулевая гипотеза.
- Для одностороннего критерия $H_0$ против альтернативы $\gamma^2 < 1$ на уровне значимости \alpha следует:
- \begin{center}
- \begin{equation*}
- \begin{cases}
- \text{Отклонить} & $H_0$, если $\widetilde{W} \le \omega_1 (\alpha , m , n)$,
- \\
- \text{Принять} & $H_0$ , если $\widetilde{W} > \omega_1 (\alpha , m , n)$
- \end{cases}
- \end{equation*}
- \end{center}
- где константа $\omega_2 (\alpha , m , n)$ удовлетворяет уравнению $P_0 [ \widetilde{W} \ge \omega_1 (\alpha , m , n) ] = \alpha$. Значения $\omega_1 (\alpha , m , n)$ приведены в таблице вероятности верхнего хвоста распределения статистики $\widetilde{W}$, когда выполняется нулевая гипотеза.
- Для двустороннего критерия $H_0$ против альтернативы $\gamma^2 \ne 1$ на уровне значимости \alpha следует:
- \begin{center}
- \begin{equation*}
- \begin{cases}
- \text{Отклонить} & $H_0$, если $\widetilde{W} \ge \omega_2 (\alpha , m , n)$ или $\widetilde{W} \le \omega_1 (\alpha , m , n)$,
- \\
- \text{Принять} & $H_0$ , если $\omega_1 (\alpha , m , n) < \widetilde{W} < \omega_2 (\alpha , m , n)$
- \end{cases}
- \end{equation*}
- \end{center}
- где $\alpha = \alpha_1+\alpha_2$.
- \end{enumerate}
- \textit{Приближение для большой выборки}. Положим $$ \widetilde{W}^{*} = \frac{\widetilde{W} - E_0(\widetilde{W})}{\{var_0(\widetilde{W}^{*})\}^{1/2}} =$$
- \begin{center}
- \begin{equation*}
- =
- \begin{cases}
- $ & \frac{\widetilde{W} - [m(m+n+2)/4]}{((mn(m+n+2)(m+n-2)/[48(m+n-1)])^{1/2}} $ , если $m+n$ -- четное
- \\
- $ & \frac{\widetilde{W} - (m(m+n+1)^2/[4(m+n)]}{(mn(m+n+1)[3+(m+n)^2]/48(m+n)^2]^{1/2}}$ , если $m+n$ -- нечетное.
- \end{cases}
- \end{equation*}
- \end{center}
- Если $H_0$ верна, то статистика $\widetilde{W}^{*}$ асимптотически ( при min $(m,n) \to \inf ) $ распределена как $N(0,1)$
- Нормальное приближение для метода (4) таково:
- \begin{center}
- \begin{equation*}
- \begin{cases}
- \text{отклонить} & $H_0$ , если $\widetilde{W} \ge z_{(\alpha)}$
- \\
- \text{принять} & $H_0$ , если $\widetilde{W} < z_{(\alpha)}$
- \end{cases}
- \end{equation*}
- \end{center}
- \textit{Связи}. Если среди N наблюдений есть одинаковые, то для вычисления $\widetilde{W}$ следует использовать связанные ранги и действовать так же, как в пункте (4) при применении критерия для малых выборок. Применяя приближение для большой выборки, следует вычислять $\widetilde{W}$ по средним рангам и заменить $var_0 (\widetilde{W})$ в формуле приближения для большой выборки на $$ var_0 ( \widetilde{W}) = \frac{mn[16 \sum_{j=1}^g t_j r_j^2 - (m+n)(m+n+2)^2]}{16(m+n)(m+n+1)}$$
- если $m+n$ -- четное. Если же $m+n$ -- нечетное, то $$ var_0 ( \widetilde{W}) = \frac{mn[16(m+n) \sum_{j=1}^g t_j t_j^2 - (m+n+1)^4]}{16(m+n)^2(m+n-1)} $$
- где g -- число связанных групп среди N наблюдений, $t_j$ -- объем связанной группы с номером j, $r_j$ -- средний ранг наблюдений в связанной группе j.
- \section{Пример}
- Пусть у нас есть известный метод исследования (1) и предложенный метод (2). Вначале проделаем 20 пар анализов обоими методами. И пусть реальное значении величины, метод для определения которой мы хотим исследовать, равно 100. Хотим узнать, какой метод имеет большую точность. Проверим альтернативу о том, что рассеивание предложенного метода (2) больше чем у известного метода (1). Следовательно, обозначая через $X$ результаты, полученные по методу (1), а через $Y$ -- по методу (2), надо проверять $H_0$ против альтернативы $\gamma^2 > 1$. На уровне около $\alpha = .05$ получаем $z_{(0.05)} = 1.645$
- \begin{figure}[h!]
- \centering
- \includegraphics[scale=1]{pic2.png}
- \caption{Результаты исследований методами (1) и (2)}
- \label{fig:universe}
- \end{figure}
- Далее я, используя excel, проранжировал все измерения, и получил $\widetilde{W} = \sum^m_{i=1} R_i = 106$. Теперь для получения $\widetilde{W}^{*}$ остается найти $var_0(\widetilde{W})$. Поскольку $m+n=40$ -- пользуемся формулой для четного числа. Также надо посчитать $\sum^g_{j=1} t_j r_j^2$. Выясняем, что оно равно 232. Теперь у нас есть все данные для расчета $\widetilde{W}^{*}$ :
- $$\widetilde{W}^{*} =\frac{(106-(20*42/4))}{((400*(41*(3+40^2)/(48*40^2))^{1/2}} = -0.281,$$
- что нас приводит к принятию $H_0$ на уровне $\alpha = 0.5$, поскольку $\widetilde{W}^{*} = -0.281 < 1.635 = z_{(.05)}$ Следовательно, нет достаточных оснований считать, что предложенный метод связан с потерей точности по сравнению с методом (1).
- \section{Вывод}
- Непараметрические аналоги критериев проверки однородности дисперсий предназначены для проверки гипотез о принадлежности двух выборок
- общей генеральной совокупности с одинаковыми характеристиками рассеяния. При этом, как правило, предполагается равенство средних.
- Рассмотренный мной пример помогает исследовать новые методы измерений, узнавать их точность, когда мы можем знать значение медианы распеределения.
- Также я смог провести исследование на своих данных, используя ранговый критерий Ансари-Брэдли.
- %\bibliographystyle{plain}
- \bibliography{references}
- \begin{thebibliography}{4}
- \bibitem{ }
- Hollander M., Wolfe D., Chicken E. Nonparametric Statistical Methods. – Hoboken, Ns: Wiley Series in Probability and Statistics. Third Edition John Wiley and Sons., 2013 – XVIII
- \end{thebibliography}
- \end{document}
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement