Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- \documentclass[12pt]{report}
- \usepackage[a4paper]{geometry}
- % See geometry.pdf to learn the layout options. There are lots.
- \geometry{a4paper}
- \usepackage{listings}
- \usepackage[cm]{fullpage}
- \usepackage{layout}
- \usepackage{amsthm}
- \usepackage{amssymb,amsmath,amsfonts,latexsym,dsfont}
- \usepackage{ upgreek }
- \usepackage{xcolor}
- \usepackage{titlesec}
- \usepackage{mathrsfs}
- \usepackage{mathtools}
- \usepackage[warn]{mathtext}
- \usepackage[T1,T2A]{fontenc}
- \usepackage{titlesec, blindtext, color}
- \definecolor{gray75}{gray}{0.75}
- \newcommand{\hsp}{\hspace{20pt}}
- \usepackage[utf8]{inputenc}
- \usepackage{fancyhdr}
- \usepackage[parfill]{parskip}
- \usepackage[english,bulgarian,ukrainian,russian]{babel}
- \titleformat{\section}[block]{\color{black}\Large\bfseries\filcenter}{}{1em}{}
- \titleformat{\chapter}[hang]{\Huge\bfseries}{\thechapter\hsp\textcolor{gray75}{|}\hsp}{0pt}{\Huge\bfseries}
- \setcounter{secnumdepth}{0}
- \renewcommand{\le}{\leqslant}
- \renewcommand{\ge}{\geqslant }
- \DeclareMathOperator{\sign}{sign}
- \DeclareMathOperator*{\argmax}{arg\,max}
- \DeclareMathOperator*{\argmin}{arg\,min}
- \DeclareMathOperator{\Tr}{Tr}
- \DeclareMathOperator{\rg}{rg}
- \DeclareMathOperator{\diag}{diag}
- \DeclareMathOperator{\cov}{cov}
- \DeclareMathOperator{\proj}{proj}
- % ... or a4paper or a5paper or ...
- %\geometry{landscape} % Activate for rotated page geometry
- %\usepackage[parfill]{parskip} % Activate to begin paragraphs with an empty line rather than an indent
- \ifx\pdfoutput\undefined
- \usepackage{graphicx}
- \else
- \usepackage[pdftex]{graphicx}
- \lstset{language=C++}
- \usepackage{pgffor}
- \newcounter{SortListTotal}
- \newcommand{\sortitem}[2]{\expandafter\def\csname SortListItem#1\endcsname{#2}\stepcounter{SortListTotal}}
- \newcommand{\printsortlist}{\foreach\currentlistitem in{1,2,...,\value{SortListTotal}}{\item[\currentlistitem]\csname SortListItem\currentlistitem\endcsname}\setcounter{SortListTotal}{0}}
- \newcommand\setItemnumber[1]{\setcounter{enumi}{\numexpr#1-1\relax}}
- \title{Математическая статистика. Прикладной поток.}
- \author{Лектор: Никита Волков \\ \\Конспект набирали: Никита Павличенко, Артем Ямалутдинов}
- %\date{October 2017}
- \usepackage{natbib}
- \usepackage{graphicx}
- \renewenvironment{proof}{{\bfseries Доказательство:}}{$\square$\\\\}
- \newenvironment{solution}{{\bfseries Решение:}}{$\square$\\\\}
- \newtheorem{theorem}{Теорема}
- \newtheorem{lemma}{Лемма}
- \newtheorem{proposition}{Утверждение}
- \newtheorem{corollary}{Следствие}
- \theoremstyle{definition}
- \newtheorem{definition}{Определение}
- \newtheorem{notation}{Обозначение}
- \newtheorem{example}{Пример}
- \newtheorem{problem}{Задача}
- \newtheorem{sense}{Смысл}
- \newtheorem{remark}{Замечание}
- \newcommand{\vect}[1]{\boldsymbol{#1}}
- \begin{document}
- \maketitle
- \fancyhead[C]{field}
- \fancyfoot[C]{МФТИ}%
- \thispagestyle{fancy}
- \newpage
- \tableofcontents
- \newpage
- \chapter{Глава 2. Точечные оценки параметров}
- \section{Лекция 2 (от 9.09)}
- \subsection{2.1. Статистики и оценки}
- Пусть $(\mathscr{X}, \mathcal{B}_\mathscr{X}, \mathcal{P})$ — вероятностно-статистическая модель, $\mathcal{P} = \{P_\theta \ \vert \theta \in \Theta \}$ — параметрическое семейство распределений.\\\\
- \textbf{Задача}: оценить $\theta$.\\
- Пусть $X = (X_1, \dots, X_n)$ — выборка из неизвестного распределения $P \in \mathcal{P}$.
- \begin{definition}
- Пусть $(E, \mathcal{E})$ — измеримое пространство. Тогда измеримая функция $S: \mathscr{X}^n \rightarrow E$ называется \emph{статистикой}. Если $E = \Theta$, то $S(X)$ называется \emph{оценкой} $\theta$.
- \end{definition}
- \textbf{Примеры статистик:}\\
- Пусть $X = (X_1, \dots, X_n)$ — действительная выборка, т. е. $\mathscr{X} = \mathbb{R}$.
- \begin{enumerate}
- \item Выборочные характеристики:
- \begin{itemize}
- \item $\overline{g(X)} = \frac{1}{n}\sum\limits_{i=1}^{n} g(X_i)$ — \emph{выборочная характеристика} функции $g$ ($g$ борелевская).
- \item $\overline{X} = \frac{1}{n}\sum\limits_{i=1}^{n} X_i$ — \emph{выборочное среднее}.
- \item $\overline{X^k} = \frac{1}{n}\sum\limits_{i=1}^{n} X_i^k$ — \emph{выборочный $k$-ый момент}.
- \end{itemize}
- \item Функции от выборочных характеристик (т.е $h(\overline{g_1(X)}, \dots, \overline{g_k(X)});\ h, g_i$ — борелевские):
- \begin{itemize}
- \item $g_1(x) = x^2, g_2(x) = x, h(x, y) = x - y^2 \\$ $h\overline{(g_1(X)}, \overline{g_2(X)}) = \overline{X}^2 - \overline{X}^2 = S^2$ — \emph{выборочная дисперсия}.
- \end{itemize}
- \begin{proposition}
- $S^2 = \frac{1}{n} \sum\limits_{i=1}^{n}(X_i - \overline{X})^2$.
- \end{proposition}
- \item Порядковые статистики:\\
- Упорядочим выборку по возрастанию: $(X_{(1)}, \dots, X_{(n)})$ — \emph{вариационный ряд}.\\
- $X_{(k)}$ — \emph{$k$-я порядковая статистика}.\\
- \end{enumerate}
- \begin{example}
- $(X_1, X_2, X_3) = (2, 5, 1).$\\
- $\overline{X} = 8/3 \\ \overline{X^2} = 10 \\ S^2 = 10 - 64/9 = 26/9.$\\
- Вариационный ряд: $(X_{(1)}, X_{(2)}, X_{(3)}) = (1, 2, 5).$
- \end{example}
- \subsection{2.2. Свойства оценок}
- \begin{remark}
- для распределения $P_\theta$ будем обозначать: $E_\theta$ — матожидание, $D_\theta$ — дисперсия, $P_\theta$-п.н., $d_\theta$.
- \end{remark}
- Пусть $X = (X_1, \dots, X_n)$ — выборка из неизвестного распределения $\\P \in \{P_\theta \ \vert \theta \in \Theta \}, \Theta \in \mathbb{R}^d$.
- \begin{definition}
- оценка $\hat{\theta}$ называется \emph{несмещенной оценкой} $\tau(\theta)$, если $E_\theta \hat{\theta}(X) = \tau(\theta)\ \ \forall \theta \in \Theta$.
- \end{definition}
- \begin{example}
- $\;$
- \begin{itemize}
- \item $\hat{\theta}_1 = X_1,\ \hat{\theta}_2 = \overline{X}$ — несмещенные оценки для $\tau(\theta) = E_\theta X_1.$
- \item $\mathcal{P} = \{Bern(\theta) \ \vert \theta \in (0, 1) \}: \overline{X}, X_1$ — несмещенные оценки $\theta$.
- \item $\mathcal{P} = \{Exp(\theta) \ \vert \theta > 0 \}: \overline{X}, X_1$ — несмещенные оценки $\frac{1}{\theta}$.
- \end{itemize}
- \end{example}
- \subsubsection{Асимптотические свойства}
- Пусть $X = (X_1, \dots)$ — выборка неограниченного размера из $P \in \{P_\theta \ \vert \theta \in \Theta \}, \Theta \in \mathbb{R}^d$.
- \begin{definition}
- $\;$
- \begin{enumerate}
- \item Оценка $\hat{\theta_n}(X_1, \dots, X_n)$ называется \emph{состоятельной оценкой} $\theta$, если $$\hat{\theta_n}(X_1, \dots, X_n) \xrightarrow{P_\theta} \theta \quad \forall \theta \in \Theta.$$
- \item Оценка $\hat{\theta_n}(X_1, \dots, X_n)$ называется \emph{сильно состоятельной оценкой} $\theta$, если $$\ \hat{\theta_n}(X_1, \dots, X_n) \xrightarrow{P_\theta-п.н.} \theta \quad \forall \theta \in \Theta.$$
- \item Оценка $\hat{\theta_n}(X_1, \dots, X_n)$ называется \emph{асимптотически нормальной оценкой} $\theta$, если $$\ \sqrt{n}(\hat{\theta_n}(X_1, \dots, X_n) - X) \xrightarrow{d_\theta} \mathcal{N}(0, \Sigma(\theta)) \quad \forall \theta \in \Theta,$$
- где $\Sigma(\theta)$ — \emph{асимптотическая матрица ковариаций}.
- Если $d=1$, то $\Sigma(\theta) = \sigma^2(\theta)$ — \emph{асимптотическая дисперсия}.
- \end{enumerate}
- \end{definition}
- \begin{sense}
- $\;$
- \begin{enumerate}
- \item \emph{Состоятельность:} при больших $n$ вероятность большого отклонения оценки $\hat{\theta_n}$ от $\theta$ мала, но нет численной характеристики степени отклонения.
- \item \emph{асимптотическая нормальность:} дает численную характеристику степени отклонения
- Пусть $\hat{\theta_n}$ — а.н.о. $\ \theta$ с а.д. $\sigma^2(\theta)$. Тогда при больших $n\quad \hat{\theta_n} \sim_{прибл.} \mathcal{N}\left(\theta, \frac{\sigma^2(\theta)}{n}\right)$.
- \item \emph{Сильная состоятельность} важна тогда, когда данные поступают последовательно.
- \end{enumerate}
- \end{sense}
- \begin{example}
- Пусть $X_1, \dots, X_n$ – выборка из распределения Лапласа со сдвигом $\theta$.
- $p_{\theta}(x) = \dfrac{1}{2}e^{-|x-\theta|}. \quad E_\theta X_1 = \theta, D_\theta X_1 = 2.$
- \emph{УЗБЧ}: $\overline{X} \xrightarrow{P_\theta-п.н.} \theta \implies \overline{X}$ — (сильно) состоятельная оценка $\theta$.
- \emph{ЦПТ}: $\sqrt{n}(\overline{X} - \theta) \xrightarrow{d_\theta} \mathcal{N}(0, 2) \implies \overline{X} \sim_{прибл.} \mathcal{N}(0, \frac{2}{n})$. По свойствам нормального распределения, с вероятностью $> 0.99$:
- $$ \theta - 3\sqrt{\frac{2}{n}} < \overline{X} < \theta + 3\sqrt{\frac{2}{n}} \\ \overline{X} - 3\sqrt{\frac{2}{n}} < \theta < \overline{X} + 3\sqrt{\frac{2}{n}}$$
- \emph{(доверительный интервал)}.
- Пусть $n = 200, \overline{X} = 1$. Тогда неравенство имеет вид
- $$ 0.7 < \theta < 1.3 $$
- \emph{(реализация доверительного интервала)}.
- \end{example}
- \begin{proposition}
- $$ \begin{array}{ccc}
- \text{Сильная состоятельность} & & \\
- & \searrow & \\
- & &\text{Состоятельность} \\
- & \nearrow & \\
- \text{Асимпт. нормальность} & &
- \end{array} $$
- Других следствий нет.
- \end{proposition}
- \begin{proposition}
- Пусть $X_1, \dots, X_n$ — выборка, т. ч. $E_\theta |X_1|^{2k} < + \infty$. Тогда $\overline{X^k}$ — несмещенная сильно состоятельная асимптотически нормальная оценка $E_\theta X^{k}$.
- \end{proposition}
- \subsection{2.3 Наследование свойств}
- \textbf{Цель:} получить оценку для $\tau(\theta)$, обладающие некоторым свойством, если имеется оценка для $\psi(\theta)$ с тем же свойством.
- \begin{theorem}[о наследовании сходимостей]
- Пусть $\{\xi_n, n \in \mathbb{N} \}, \xi$ — случайные векторы размерности $d$. Тогда:
- \begin{enumerate}
- \item Если $\xi_n \xrightarrow{P} \xi$ и $h: \mathbb{R}^d \rightarrow \mathbb{R}^k$, т. ч. $h$ непрерывна на $B : P(\xi \in B) = 1$. Тогда $h(\xi_n) \xrightarrow{P} h(\xi)$.
- \item Аналогично для сходимости п. н.
- \item Если $\xi_n \xrightarrow{d} \xi$ и $h: \mathbb{R}^d \rightarrow \mathbb{R}^k$ непрерывна, то $h(\xi_n) \xrightarrow{d} h(\xi)$.
- \end{enumerate}
- \end{theorem}
- \begin{example}
- Пусть $\{\xi_n, n \in \mathbb{N} \}$ — н.о.р.с.в., т.ч. $\mathbb{E}\xi_1 = a \neq 0$, $\mathbb{D}\xi_n$ ограничена.
- Из ЗБЧ: $\dfrac{S_n}{n} \xrightarrow{P} a, \quad S_n = \sum \xi_i$. Рассмотрим $h(x) = 1/x$ и применим теорему:
- $$ h\left(\frac{S_n}{n}\right) = \frac{n}{S_n} \ \xrightarrow{P} \ h(a) = \frac{1}{a}. $$
- \end{example}
- \begin{proposition}
- Пусть $\hat{\theta}$ — (сильно) состоятельная оценка $\theta$. Пусть $\tau$ непрерывна на $\Theta$. Тогда $\tau(\hat{\theta})$ — (сильно) состоятельная оценка $\tau(\theta)$.
- \end{proposition}
- \begin{remark}
- Условие непрерывности на $\Theta$ нельзя ослабить.
- \end{remark}
- \begin{theorem}[лемма Слуцкого]
- Пусть $\{\xi_n, n \in \mathbb{N}\},\ \{\eta_n, n \in \mathbb{N}\},\ \xi$ — случайные величины, $C \in \mathbb{R}$. Пусть $\xi_n \xrightarrow{d} \xi, \ \eta_n \xrightarrow{d} C.$ Тогда $\xi_n + \eta_n \xrightarrow{d} \xi + C,\\ \xi_n \cdot \eta_n \xrightarrow{d} \xi C$.
- \end{theorem}
- \begin{theorem}[о производной]
- Пусть $\{\xi_n, n \in \mathbb{N}\},\ \xi$ — случайные векторы размерности $d$, т.ч. $\xi_n \xrightarrow{d} \xi, h: \mathbb{R}^d \rightarrow \mathbb{R}^k$
- непрерывно дифференцируема в точке $a \in \mathbb{R}^d,\\ \{b_n \}: b_n > 0, b_n \rightarrow 0$ — числовая последовательность. Тогда
- $$\dfrac{h(a + \xi_n b_n) - h(a)}{b_n} \xrightarrow{d} \dfrac{\partial h}{\partial x}\Bigr\rvert_a \cdot \xi, $$
- где $\dfrac{\partial h}{\partial x}\Bigr\rvert_a$ — матрица Якоби функции $h$ в точке $a$.
- \end{theorem}
- \begin{proof}
- $(d = 1)$:
- Определим функцию
- $$\quad H(x) = \begin{cases}
- \dfrac{h(x+a) - h(a)}{x},\quad если\ x \neq 0 \\
- h'(a), \quad если \ x = 0.
- \end{cases} $$
- Функция $H$ непрерывна в нуле. Тогда по лемме Слуцкого $\ \xi_n b_n \xrightarrow{d} \xi \cdot 0 = 0 \implies \\ \implies \xi_n b_n \xrightarrow{p} 0.$ Применим теорему о наследовании сходимостей:
- $$ H(\xi_n b_n) = \dfrac{h(\xi_n b_n+a) - h(a)}{\xi_n b_n} \xrightarrow{p} H(0) = h'(a) \implies \\ \implies \dfrac{h(\xi_n b_n+a) - h(a)}{\xi_n b_n} \xrightarrow{d} h'(a). $$
- Применим еще раз лемму Слуцкого:
- $$ \xi_n H(\xi_n b_n) \xrightarrow{d} h'(a)\xi. $$
- Следовательно, $\dfrac{h(\xi_n b_n+a) - h(a)}{b_n} \xrightarrow{d} h'(a).$
- \end{proof}
- \begin{example}
- Пусть $\{\xi_n, n \in \mathbb{N} \}$ — н.о.р.с.в, т.ч. $\mathbb{E}\xi_1 = a \neq 0, \ , \mathbb{D}\xi_1 = \sigma^2.$
- $\sqrt{n} \left( \dfrac{n}{S_n} - \dfrac{1}{a} \right) \xrightarrow{d} ?$
- $\triangle$ ЦПТ: $\sqrt{n}(\frac{S_n}{n} - a) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$.
- Воспользуемся теоремой о производной с $\xi_n = \sqrt{n}(\frac{S_n}{n} - a), \\ \xi \sim \mathcal{N}(0, \sigma^2), \ h(x) = \frac{1}{x}, \ b_n = \frac{1}{\sqrt{n}}:$
- $$\dfrac{h(\xi_n b_n+a) - h(a)}{b_n} = \sqrt{n}\left[h\left(a + \left(\dfrac{S_n}{n} - a\right)\right) - h(a)\right] =$$ $$=\sqrt{n} \left( \dfrac{n}{S_n} - \dfrac{1}{a} \right) \xrightarrow{d} \\ \xrightarrow{d} \xi \cdot \left(\dfrac{1}{x} \right) \Biggr\rvert_a = -\xi \cdot \dfrac{1}{a^2} \sim \mathcal{N}\left(0, \dfrac{\sigma^2}{a^4}\right) \qquad \square .$$
- \end{example}
- \begin{remark}
- Если мы рассмотрим $\xi_n$ как выборку $(X_1, X_2, \dots)$, то $1/\overline{X}$ — а. н. о. для $1/a$ с асимптотической дисперсией $\sigma^2 / a^4$.
- \end{remark}
- \section{Лекция 3}
- \begin{theorem}[дельта-метод]
- Пусть $\hat{\theta}_n$ — асимптотически нормальная оценка $\theta \in \Theta \subseteq \mathbb{R}^d$ с асимптотической матрицей ковариаций $\Sigma(\theta)$ и $\tau:\mathbb{R}^d \rightarrow \mathbb{R}^k$ — непрерывно дифференцируемая функция. Тогда $\tau(\hat{\theta}_n)$ — асимптотически нормальная оценка $\tau(\theta)$ с асимптотической матрицей ковариаций $D(\theta)\Sigma(\theta)D^T(\theta)$, где $D(\theta) = \dfrac{\partial \tau(\theta)}{\partial \theta}$.
- \end{theorem}
- \begin{proof}
- Применим теорему о производной:
- $$a=\theta, \: h(x) = \tau(x), \: \xi_n=\sqrt{n}(\hat{\theta}_n - \theta), \: \xi \sim \mathcal{N}(0, \Sigma(\theta)),\: b_n=\dfrac{1}{\sqrt{n}}$$
- $$\dfrac{h(a+\xi_nb_n) - h(a)}{b_n} = \dfrac{\tau\left(\theta + \dfrac{1}{\sqrt{n}}\sqrt{n}(\hat{\theta}-\theta)\right) - \tau(\theta)}{1/\sqrt{n}}=$$
- $$=\sqrt{n}(\tau(\hat{\theta}) - \tau(\theta)) \xrightarrow{d} \underbrace{\dfrac{\partial h}{\partial x}\Biggr\rvert_\theta}_{D(\theta)} \xi \sim \mathcal{N}(0, D(\theta)\Sigma(\theta)D^T(\theta)).$$
- \end{proof}
- \begin{example}
- $X_1,\dots X_n \sim Exp(\theta)$, $\theta > 0$. ЦПТ:
- $$\sqrt{n}\left(\overline{X} - \dfrac{1}{\theta}\right) \xrightarrow{d_\theta} \mathcal{N}(0, 1/\theta^2) \Rightarrow \overline{X} \text{— а.н.о. } \frac{1}{\theta} \text{ с асимптотической дисперсией }1/\theta^2.$$
- Примерим дельта-метод с функцией $\tau(x) = 1/x$: $\tau(\overline{X}) = \dfrac{1}{\overline{X}}$ — а.н.о. $\tau\left(\dfrac{1}{\theta}\right)$. с асимптотической дисперсией $\dfrac{1}{\theta^2}\cdot \left(\dfrac{\partial \theta}{\partial x}\Biggr\rvert_{1/\theta}\right)^2 = \dfrac{1}{\theta^2}\left(-\dfrac{1}{x^2}\right)^2 = \theta^2$.
- \end{example}
- \textbf{Доказательство теоремы о наследовании сходимостей:}\\
- \begin{enumerate}
- \setItemnumber{2}
- \item $\xi_n\xrightarrow{п.н.} \xi$, $h:\mathbb{R}^d \rightarrow \mathbb{R}^k$ непрерывна на множестве $B:P(\xi \in B) = 1$. $\xi_n \xrightarrow{п. н.} \xi \Leftrightarrow P(\displaystyle{\lim_{n \to \infty} \xi_n = \xi}) = 1$. Хотим доказать, что $P(\displaystyle{\lim_{n \to \infty} h(\xi_n) =h(\xi)) = 1}$. $P(\displaystyle{\lim_{n \to \infty} h(\xi_n) =h(\xi)) = 1} \geqslant P(\displaystyle{\lim_{n \to \infty}\xi_n = \xi, \xi \in B) = 1},$ так как вероятность этого события равна 1.
- \setItemnumber{1}
- \item $\xi_n \xrightarrow{P} \xi$ и $h : \mathbb{R}^d \rightarrow \mathbb{R}^k$ непрерывна на $B$ таком, что $P(\xi \in B) = 1$.
- $$h(\xi_n) \xrightarrow{P} h(\xi) \Leftrightarrow \forall \varepsilon > 0 \underbrace{P(\Vert h(\xi_n) - h(\xi)\Vert) > \varepsilon}_{\forall \delta > 0 \exists N : \forall n > N P(\Vert h(\xi_n)-h(\xi)\Vert) > \varepsilon < \delta} \rightarrow 0.$$
- $$h(\xi_n) \stackrel{P}{\nrightarrow} h(\xi) \Rightarrow \exists \varepsilon, \delta, \{\xi_n\}_{k=1}^\infty : P(\Vert h(\xi_n) - h(\xi) \Vert > \varepsilon) > \delta.$$
- Заметим, что $\xi_n \rightarrow \xi \Rightarrow$ существует последовательность $\{\xi_{n_{k_s}}\}_{s=1}^\infty$ такая, что $\xi_{n_{k_s}} \xrightarrow{п. н.} \xi$, $s \rightarrow \infty$.
- \setItemnumber{3}
- \item $\xi_n \xrightarrow{d} \xi$ и $h$ непрерывна. Возьмем $f : \mathbb{R}^k \rightarrow \mathbb{R}$ — непрерывная ограниченная. Тогда $f(h(x))$ непрерывная ограниченная на $\mathbb{R}^d$, и, поскольку $\xi_n \xrightarrow{d} \xi$, то $\mathbb{E}(h(\xi_n)) \rightarrow \mathbb{E}f(h(\xi)) \Rightarrow h(\xi_n) \xrightarrow{d} h(\xi)$ по определению.
- \end{enumerate}
- $\square$
- \textbf{Доказательство леммы Слуцкого для суммы:} $\xi_n \xrightarrow{d} \xi$, $\eta_n \xrightarrow{d} c \Rightarrow \xi_n + \eta_n \xrightarrow{d} \xi + c$.
- $\xi_n \xrightarrow{d} \xi \Leftrightarrow F_{\xi_n}(x) \rightarrow F_\xi(x)$ в точках непрерывности $F_\xi$. $F_{\xi+c}(x) = F_\xi(x-c)$. $\xi_n \rightarrow \xi \Rightarrow \xi_n + c \rightarrow \xi + c$, так как есть сходимость в точках непрерывности $F_{\xi + c}(x)$.
- Пусть $t$ — точка непрерывности $F_{\xi + c}$, $\varepsilon > 0 : t \pm \varepsilon$ тоже точка непрерывности.
- $$F_{\xi_n + \eta_n}(t) = P(\xi_n + \eta_n \leqslant t) = P(\xi_n + \eta_n \leqslant t, \:\eta_n < c - \varepsilon) + P(\xi_n + \eta_n \leqslant t, \:\eta_n \geqslant c - \varepsilon) \fbox{$\leqslant$}$$
- \begin{enumerate}
- \item $$\{\xi_n + \eta_n \leqslant t, \; \eta_n < c - \varepsilon\} \subseteq \{\eta_n < c - \varepsilon\} \subseteq \{|\eta_n - c| > \varepsilon\}.$$
- \item $$\{\xi_n + \eta_n \leqslant t, \; \eta_n \geqslant c - \varepsilon\} \subseteq \{\xi_n + c - \varepsilon \leqslant t, \; \eta_n \geqslant c - \varepsilon\} \subseteq \{\xi_n + c \leqslant t + \varepsilon\}.$$
- \end{enumerate}
- $$\fbox{$\leqslant$} P(|\eta_n-c| > \varepsilon) + P(\xi_n + c \leqslant t + \varepsilon).$$
- $$\lim_{n\to \infty} \sup F_{\xi_n + \eta_n}(t) \leqslant \underbrace{\lim_{n\to \infty} P(|\eta_n - c| > \varepsilon)}_{=0\text{ т.к. }\eta_n \xrightarrow{d} c \Rightarrow\eta_n \xrightarrow{P} c} + \underbrace{\lim_{n\to\infty}F_{\xi_n + c}(t + \varepsilon)}_{=F_{\xi + c}(t+\varepsilon)\text{, т.к. }\xi_n+c\xrightarrow{d}\xi+c\text{ и } t + c\text{ — т.непр.}}$$
- То есть $\displaystyle{\lim_{n\to\infty}\sup F_{\xi_n + \eta_n}(t) \leqslant F_{\xi+c}(t+\varepsilon)}$. Аналогично $\displaystyle{\lim_{n\to\infty}\inf F_{\xi_n+\eta_n}(t) \geqslant F_{\xi + c}(t - \varepsilon)}$, следовательно $F_{\xi + c}(t - \varepsilon) \Rightarrow F_{\xi+c}(t-\varepsilon) \leqslant \displaystyle{\lim_{n\to\infty}}\inf F_{\xi_n + \eta_n}(t) \leqslant \displaystyle{\lim_{n\to\infty}\sup F_{\xi_n+\eta_n}(t) \leqslant F_{\xi+c}(t+\varepsilon)}$. В силу произвольности $\varepsilon > 0$ и непрерывности $F_{\xi+c}(t)$, получаем, что существует $\displaystyle{\lim_{n\to\infty}}F_{\xi_n+\eta_n}(t) = F_{\xi+c}(t) \Rightarrow \xi_n + \eta_n \xrightarrow{d} \xi + c$.
- $\square$
- \subsection{2.4. Методы нахождения оценкок}
- \subsubsection{(1) Метод моментов}
- \textbf{Идея:} приравняем друг к другу теоретические и выборочные моменты.
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из неизвестного распределения $P \in \{P_\theta| \theta \in \Theta\}$, $\Theta \subseteq \mathbb{R}^d$. Составим систему:
- $$\begin{cases}
- E_\theta X_1 = \overline{X}\\
- E_\theta X_1^2 = \overline{X^2}\\
- \dots\\
- E_\theta X_1^d = \overline{X^d}
- \end{cases}$$
- Решение этой системы называется оценкой $\theta$ по методу моментов.
- \subsubsection{Обобщенный метод моментов}
- Пусть $g_1(x),\ldots, g_d(x)$ — борелевские функции, такие, что $|E_\theta g_j(x_j)| < +\infty$. Составим систему:
- $$\begin{cases}
- E_\theta g_1(X_1) = \overline{g_1(X)}\\
- E_\theta g_2(X_1) = \overline{g_2(X)}\\
- \dots\\
- E_\theta g_d(X_1) = \overline{g_d(X)}
- \end{cases}$$
- \begin{example}
- $X_1, \ldots, X_n \sim Exp(\theta)$. Найти оценку стандартным методом моментов и обобщенным с функцией $g(x) = I\{x > 1\}.$
- \end{example}
- \textbf{Решение:}\\
- \begin{enumerate}
- \item Стандартный метод моментов дает уравнение $E_\theta X_1 = \overline{X} \Rightarrow \hat{\theta}_1 = \dfrac{1}{\overline{X}}.$ Ранее мы получали, что $\hat{\theta}_1$ — асимптотически нормальная оценка $\theta$ с асимптотической дисперсией $\theta^2 = \sigma^2(\theta)$.
- \item Получаем систему из одного уравнения: $E_\theta I(X_1 > 1) = \overline{I(X > 1)}$. $E_\theta I\{X_1 > 1\} = \displaystyle{\int_1^{+\infty}}\theta e^{-\theta x}dx = e^{-\theta}$, $\overline{I\{X>1\}} = \dfrac{1}{n}\displaystyle{\sum_{i=1}^n I\{X_i > 1\}}$. Получаем $\hat{\theta}_2 = \ln \overline{I\{X > 1\}}$. ЦПТ: $\overline{I\{X > 1\}}$ — асимптотически нормальная оценка $e^{-\theta}$ с асимптотической дисперсией $D_\theta I\{X_1 > 1\} = e^{-\theta} - e^{-2\theta}$. Применим дельта-метод с функцией $\tau(x) = -\ln x$. Отсюда $\hat{\theta}_2$ — асимптотически нормальная оценка $\theta$ с асимптотической дисперсией $(e^{-\theta} - e^{-2\theta})\cdot((-\ln x)')^2\Biggr\rvert_{e^{-\theta}} = (e^{-\theta}-e^{-2\theta})\cdot\dfrac{1}{x^2}\Biggr\rvert_{e^{-\theta}} = e^{\theta} - 1 = \sigma_2^2(\theta)$.
- \end{enumerate}
- \textbf{Вывод:} нужен метод сравнения оценок. Видимо, $\hat{\theta}_1$ лучше $\hat{\theta}_2$, так как $\sigma_1^2(\theta) < \sigma_2^2(\theta)$.
- Распишем оценку по методу моментов: пусть $g_1(x), \ldots, g_d(x)$ — борелевские функции такие, что $|E_\theta g_i(x_i)| < +\infty$.
- $$m(\theta) = \begin{pmatrix}E_\theta g_1(X_1)\\ \ldots \\ E_\theta g_d(x_1)\end{pmatrix} = \begin{pmatrix}\overline{g_1(X)}\\ \ldots \\ \overline{g_d(x)}\end{pmatrix} = \overline{g(X)} \Rightarrow\hat{\theta} = m^{-1}(g(\overline{X})).$$
- \begin{proposition}
- $\;$
- \begin{enumerate}
- \item Если $m^{-1}$ непрерывна, то $\hat{\theta}$ — сильно состоятельная оценка $\theta$.
- \item Если $m^{-1}$ непрерывно дифференцируема и $E_\theta g_i^2(X_i) < +\infty$, то $\hat{\theta}$ — асимптотически нормальная оценка $\theta$.
- \end{enumerate}
- \end{proposition}
- \begin{proof}
- \begin{enumerate}
- \item В силу выбора $g_i:|E_\theta g_i(X_i)| < +\infty$ по УЗБЧ: $\overline{g(X)} \xrightarrow{P_\theta-п.н.} m(\theta) = E_\theta g(X_1)$. Поскольку $m^{-1}$ непрерывна, то по теореме о наследовании сходимостей $\hat{\theta} = m^{-1}(\overline{g(X)})$ — сильно состоятельная оценка $m^{-1}(m(\theta))=\theta$.
- \item ЦПТ: $\sqrt{n}(\overline{g(X)} - m(\theta)) \xrightarrow{d_\theta} \mathcal{N}(0, \Sigma(\theta))\Rightarrow \overline{g(X)}$ — асимптотически нормальная оценка $m(\theta)$. Применяем дельта-метод с функцией $m^{-1}$: $\hat{\theta}$ — асимптотически нормальная оценка $\theta$. $\square$
- \end{enumerate}
- \end{proof}
- \subsubsection{(2) Метод максимального правдоподобия}
- Пусть $X=(X_1, \ldots X_n)$ — выборка из неизвестного распределения $P \in \{P_\theta|\theta \in \Theta\}$, где
- \begin{enumerate}
- \item Либо все $P_\theta$ абсолютно непрерывные и $p_\theta(x)$ — плотность $P_\theta$.
- \item Либо все $P_\theta$ дискретные и $p_\theta(x) = P_\theta(X_1 = x)$ — дискретная плотность.
- \end{enumerate}
- \begin{definition}
- $L_X(\theta) = p_\theta(X) = \displaystyle{\prod_{i = 1}^n}p_\theta(X_i)$ — функция правдоподобия (как функция от $\theta$).
- \end{definition}
- \begin{definition}
- $l_X(\theta) = L_X(\theta)$ — логарифмическая функция правдоподобия.
- \end{definition}
- \begin{remark}
- При фиксированном $\theta$ функция правдоподобия равна плотности выборки, в которую в качестве аргумента подставлена сама выборка.
- \end{remark}
- \begin{sense}
- "вероятность" выборки в зависимости от значения параметра. Степень доверия к конкретному значению параметра. Интересует только относительное значение.
- \end{sense}
- \begin{example}
- пусть $x_1$ — наблюдение.
- *Рисунок*
- Видимо $\theta_2$ более правдоподобно, чем $\theta_1$ и $\theta_3$.
- \end{example}
- \begin{definition}
- $\hat{\theta} = \argmax_{\theta \in \Theta} L_X(\theta)$ называется оценкой максимального правдоподобия.
- \end{definition}
- \begin{proposition}
- ОМП не зависит от параметризации. Пусть $\hat{\theta}$ — ОМП для $\theta$. $\tau : \Theta \rightarrow \Psi$ — биекция. Тогда $\tau(\hat{\theta})$ — ОМП для $\tau(\theta)$.
- \end{proposition}
- \begin{proposition}
- Пусть $\forall n,\;\forall x_1, \ldots,x_n$ уравнение правдоподобия $\displaystyle{\sum_{i=1}^n}\dfrac{\partial}{\partial \theta}\ln p_\theta(x_i) = 0$ имеет только одно решение. Тогда
- \begin{enumerate}
- \item $[L1-L5]\Rightarrow$ ОМП состоятельна;
- \item $[L1-L9]\Rightarrow$ ОМП является асимптотически нормальной оценкой $\theta$ с асимптотической матрицей ковариаций $i(\theta)^{-1}$, где $i(\theta)_{jk} = E_\theta \dfrac{\partial l_{X_1}(\theta)}{\partial \theta_j}\dfrac{\partial l_{X_1}(\theta)}{\partial \theta_k}$.
- \item $[L1-L9]\Rightarrow$ решение уравнения и есть ОМП.
- \end{enumerate}
- \end{proposition}
- \begin{problem}
- $X_1,\ldots,X_n \sim Exp(\theta)$. Найти ОМП для $\theta$ и $1/\theta$.
- \end{problem}
- \begin{solution}
- $p_\theta(x) = \theta e^{-\theta x}\cdot I\{x>0\}$. Отсюда
- $$L_X(\theta) = \displaystyle{\prod_{i=1}^n}\theta e^{-\theta X_i}\cdot I\{X_i > 0\} = \theta^n e^{-\theta\sum X_i}\cdot I\{\forall i \;X_i > 0\}.$$
- Прологарифмируем:
- $$l_X(\theta) = n\ln \theta - \theta\sum_{i=1}^n X_i.$$
- $$\dfrac{\partial l_X(\theta)}{\partial \theta} = \dfrac{n}{\theta}-\sum_{i = 1}^n X_i = 0 \Rightarrow\hat{\theta} = \dfrac{1}{\overline{X}}.$$
- По утверждению о независимости от способа параметризации $\overline{X}$ — ОМП для $1/\theta$, $i(\theta)=E_\theta\left(\dfrac{\partial l_{X_1}(\theta)}{\partial}\right)^2 = E_\theta\left(\dfrac{1}{\theta}-X_1\right)^2 = D_\theta X_1 = \dfrac{1}{\theta^2} \Rightarrow \hat{\theta} = \dfrac{1}{\overline{X}}$ — асимптотически нормальная оценка $\theta$ с асимптотической дисперсией $i(\theta)^{-1} = \theta^2$.
- \end{solution}
- \section{Лекция 4}
- \begin{example}
- $X_1, \ldots, X_n \sim Bern(\theta)$. Найти ОМП для $\theta$ и $\ln \dfrac{\theta}{1-\theta}$.
- \end{example}
- \begin{solution}
- $p_\theta(x) = P_\theta(X_1 = x) = \begin{cases}
- \theta, & x = 1 \\
- 1 - \theta, & x = 0
- \end{cases} = \theta^x(1-\theta)^{1-x}.$\\
- \begin{equation*}
- L_X(\theta) = \prod_{i=1}^n p_\theta (X_i) = \prod_{i=1}^n \theta^{X_i} (1 - \theta)^{1-X_i} = \theta^{\sum X_i}(1-\theta)^{n-\sum X_i}
- \end{equation*}
- \begin{equation*}
- l_X(\theta) = \ln L_X(\theta) = \sum X_i \ln \theta + (n - \sum X_i)\ln(1-\theta)
- \end{equation*}
- \begin{equation*}
- \dfrac{\partial l_X(\theta)}{\partial \theta} = \dfrac{\sum X_i}{\theta} - \dfrac{n - \sum X_i}{1-\theta} = 0
- \end{equation*}
- \begin{equation*}
- (1-\theta)\sum X_i = \theta(n - \sum X_i)
- \end{equation*}
- \begin{equation*}
- \sum X_i = n\theta \Rightarrow \theta = \overline{X}.
- \end{equation*}
- По свойству независимости от способа параметризации ОМП для $\ln \dfrac{\theta}{1-\theta}$ это $\ln \dfrac{\overline{X}}{1-\overline{X}}$.
- Посчитаем асимптотическую для $\hat{\theta} = \overline{X}$. $i(\theta) = E_\theta \left(\dfrac{\partial l_{X_1}(\theta)}{\partial\theta}\right)^2 = E_\theta\left(\dfrac{X_1}{\theta}-\dfrac{1-X_1}{1-\theta}\right)^2 = \dfrac{1}{\theta^2 (1-\theta)^2}E_\theta((1-\theta)X_1 - \theta(1-X_1))^2 = \dfrac{1}{\theta^2(1-\theta)^2}E_\theta (X_1 - \theta)^2 = \dfrac{1}{\theta^2 (1-\theta)^2}D_\theta X_1 = \dfrac{\theta(1-\theta)}{\theta^2(1-\theta)^2} = \dfrac{1}{\theta(1-\theta)}$. $\sigma^2(\theta) = 1/ i(\theta) = \theta(1-\theta)$.
- \end{solution}
- \begin{problem}
- На высоте 1м от поверхности находится $\gamma$-излучатель. Регистрируются точки пересечения с горизонтальной осью. Направление равномерно распределено по полуокружности. Оценить $\theta$.
- \end{problem}
- \begin{solution}
- $x$ — точка пересечения с осью, $\alpha_x$ — угол, который образует точка $x$. Найдем распределение $x$. Заметим, что оно симметрично относительно $\theta$. При $x \geqslant 0$: $F_\theta(x) = P_\theta(X \leqslant x) = P_\theta(X \leqslant \theta) + P_\theta(\theta \leqslant X \leqslant x) = \dfrac{1}{2} + \dfrac{\alpha_x}{\pi} = \dfrac{1}{2} + \dfrac{\arctan\left(x - \theta\right)}{\pi}$.
- $$p_\theta(x) = F'_\theta(x) = \dfrac{1}{\pi(1 + (x - \theta)^2)} \text{ — распределение Коши}.$$
- \begin{enumerate}
- \item Метод моментов неприменим, т. к. несуществует $E_\theta X_1$.
- \item Метод максимизации правдоподобия: $$L_X(\theta) = \prod_{i=1}^n \dfrac{1}{\pi(1 + (X_i - \theta)^2)};$$ $$l_X(\theta) = -\sum_{i=1}^n \ln(1 + (X_i - \theta)^2);$$ $$\dfrac{\partial l_X(\theta)}{\partial \theta} = 2\sum_{i = 1}^n \dfrac{X_i - \theta}{1 + (X_i - \theta)^2} = 0.$$ Дальше решать это грустно.
- \item Почему бы не взять $\hat{\theta} = \overline{X}$? Посчитаем распределение $\overline{X}$: $\varphi_X(t) = \mathbb{E} e^{itX}$. Для Коши $\varphi_{X_1} = e^{-|t|}$ $(\theta = 0)$.
- $$\varphi_{\overline{X}} (t) = E e^{it\overline{X}} = Ee^{it\dfrac{1}{n} \sum X_i} = \mathbb{E}\prod_{i=1}^n e^{i(t/n)X_i} = /\text{незав.}/ = \prod_{i=1}^n Ee^{i(t/n)X_i} = |X_i \stackrel{d}{=} X_1| = $$ $$=\left(Ee^{i(t/n)X_1}\right)^n = e^{-|t|} = \varphi_{X_1}(t) \Rightarrow \text{ по теореме о единственности } \overline{X} \stackrel{d}{=} X_1.$$
- \textbf{Вывод:} усреднение ничего не дает.
- \item Медиана - рассмотрим далее.
- \end{enumerate}
- \end{solution}
- \subsubsection{Выоброчные квантили}
- \begin{definition}
- Пусть $P$ — распределение на $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ с функцией распределение $F(X)$. Пусть $p \in (0, 1)$. Тогда $p$-квантилью распределения $P$ называется $u_p = \min \{x | F(x) \geqslant p\}$; $1/2$-квантиль называется медианой.
- \end{definition}
- \begin{example}
- $Exp(1)$, $F(x) = 1 - e^{-x}$, $u_p = -\ln(1-p)$ — $p$-квантиль $Exp(1)$.
- \end{example}
- \begin{definition}
- Пусть $X = (X_1, \ldots X_n)$ — выборка. Выборочной $p$-квантилью называется $\hat{u_p} = X_{(\lceil np \rceil)}$. Выборочной медианой $$ \hat{\mu} = \begin{cases}
- X_{(k+1)} & \text{ если } n = 2k + 1\\
- \dfrac{X_{(k)} + X_{(k+1)}}{2} & \text{ если } n = 2k
- \end{cases}.$$
- \end{definition}
- \begin{example}
- $X = (7, 9, 15, 8, 12, 1, 8, 5, 17, 21)$. Найти выборочные квантили уровней $0.01$, $0.1$, $0.25$ и медиану.
- \end{example}
- \begin{solution}
- Сортируем: $(1, 5, 7, 8, 8, 9, 12, 15, 17, 21)$. $\hat{\mu} = \dfrac{8 + 9}{2} = 8.5$. $\hat{u}_{0.01} = X_{(\lceil 10 \cdot 0.01 \rceil)} = X_{(1)} = 1$.
- $\hat{u}_{0.1} = X_{(1)} = 1$. $\hat{u}_{0.25} = X_{(\lceil 10 \cdot 0.25 \rceil)} = X_{(3)} = 7$.
- \end{solution}
- \begin{theorem}
- Пусть $ (X_n, n \in \mathbb{N})$ — выборка неограниченного размера из распределения $P$ с плотностью $f(x)$. Число $p \in (0, 1)$, такое что $f(x)$ непрерывна
- в окрестности $u_p$ и $f(u_p) > 0$. Тогда $$\sqrt{n}(\hat{u}_p - u_p) \xrightarrow{d} \mathcal{N}\left(0, \dfrac{p(1-p)}{f^2(u_p)}\right).$$
- Аналогично для выборочной медианы $$\sqrt{n}(\hat{\mu} - u_{1/2}) \xrightarrow{d} \mathcal{N}\left(0, \dfrac{1}{4f^2(u_{1/2})}\right).$$
- \end{theorem}
- Вспомним про $\gamma$-котиков. $\hat{\mu}$ — а.н.о. $\theta$ с асимптотической дисперсией $\dfrac{1}{4\frac{1}{\pi^2 (1-\theta)^2}} = \dfrac{\pi^2}{4} \approx 2.47$. При этом $i(\theta) = 1/2 \Rightarrow 1/ i(\theta) = 2$ — асимптотическая дисперсия ОМП.
- \subsection{2.5. Достаточные статистики}
- \begin{definition}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из неизвестного распределения $P \in \mathcal{P}$, где $\mathcal{P} = \{P_\theta | \theta \in \Theta\}$.
- Статистика $S(X)$ называется \emph{достаточной для семейства $\mathcal{P}$}, если условное распределение $P_\theta(X \in B | S(X))$ не зависит от $\theta \; \forall B$.
- \end{definition}
- \begin{sense}
- вся информация о $\theta$, которая содержится содержится в выборке, содержится в достаточной статистике.
- \end{sense}
- \begin{corollary}
- если данные поступают последовательно, можно только пересчитывать $S(X)$.
- \end{corollary}
- \begin{example}
- $X_1, \ldots, X_n \sim Bern(\theta)$. Какая информация есть в выборке?
- \begin{enumerate}
- \item $S(X) = \sum X_i$ — количество единиц.
- \item Порядок нулей и единиц — бесполезная информация, так как выборка.
- \end{enumerate}
- Покажем, что $S(X)$ — достаточная статистика. $$\dfrac{P_\theta(X_1 = x_1,\ldots, X_n = x_n, \sum X_i = s)}{P_\theta(\sum X_i = s)} = \dfrac{\theta^{\sum X_i}(1-\theta)^{n - \sum X_i} \cdot I\{\sum X_i = s\}}{C_n^s \theta^s (1-\theta)^{n-s}}=$$
- $$= \dfrac{1}{C_n^s} I\{\sum X_i = s\} \text{ — не зависит от } \theta \Rightarrow S(X) \text{ - достаточная статистика}$$
- \end{example}
- \begin{theorem}[критерий факторизации Неймана-Фишера]
- Пусть $X = (X_1, \ldots X_n)$ — выборка из распределение $P \in \mathcal{P} = \{P_\theta | \theta \in \Theta\}$, причем $\mathcal{P}$ — доминируемое семейство с плотностью $p_\theta(x)$. Тогда $S(X)$ — достаточная статистика для $\mathcal{P} \Leftrightarrow$ справедлива факторизация:
- $$p_\theta(x) = \psi(S(x), \theta) \cdot h(x),$$
- $h(x)$ не зависит от $\theta$.
- \end{theorem}
- \begin{proof}
- (для дискретного случая):
- $(\Rightarrow)$ Пусть $S(X)$ — достаточная статистика.
- $$p_\theta(x) = P_\theta(X = x) = P_\theta(X = x, S(X) = S(x)) = $$
- $$ = \underbrace{P_\theta(X = x | S(X) = S(x))}_{\text{не зависит от} \theta} \cdot \underbrace{P_\theta(S(X) = S(x))}_{\text{зависит только от }S(x)} = h(x) \cdot \psi(S(x), \theta).$$
- $(\Leftarrow)$ Пусть имеет место факторизация. Покажем, что $P_\theta(X = x | S(X) = s)$ не зависит от $\theta$. Если $S(x) \neq s$, то вероятность $ = 0$.
- $$P_\theta(X = x | S(X) = S(x)) = \dfrac{P_\theta(X = x, S(X) = S(x))}{P_\theta(S(X) = S(x))} = \dfrac{P_\theta(X = x)}{\displaystyle{\sum_{y: S(y) = S(x)}} P_\theta (X = y)} = $$
- $$ = \dfrac{p_\theta(x)}{\displaystyle{\sum_{y: S(y) = S(x)}} p_\theta(y)} = \dfrac{\psi(S(x), \theta)h(x)}{\displaystyle{\sum_{y: S(y) = S(x)}} \psi(S(y), \theta)h(y)} = \dfrac{h(x)}{\displaystyle{\sum_{y: S(y) = S(x)} h(y)}} \text{ — не зависит от } \theta.$$
- \end{proof}
- \begin{example}
- $X_1, \ldots, X_n \sim \Gamma(\alpha, \beta)$. Найти достаточные статистики.
- \end{example}
- \begin{solution}
- $$p_\theta(x) = \dfrac{\alpha^\beta}{\Gamma(\beta)} x^{\beta - 1} e^{-\alpha x}, \; x > 0$$
- $$p_\theta(x_1, \ldots, x_n) = \dfrac{\alpha^{n\beta}}{\Gamma^n(\beta)} \left(\prod_{i=1}^n x_i\right)^{\beta - 1} e^{-\alpha \sum x_i}.$$
- Вывод: $(\sum X_i, \prod X_i)$ — достаточная статистика.
- Лучше $(\sum X_i, \sum \ln X_i)$.
- \end{solution}
- \section{Лекция 5 (от 30.09)}
- \subsection{2.6. Экспоненциальный класс распределений}
- \begin{definition}
- Семейство распределений $\mathcal{P} = \{P_\theta \vert \theta \in \Theta \}$ принадлежит \emph{экспоненциальному классу}, если плотность $p_\theta(x)$ имеет вид
- $$p_\theta(x) = \dfrac{g(x)}{h(\theta)}e^{a(\theta)^Tu(x)}, $$
- где $g(x) > 0,\ u(x)$ — произвольные борелевские функции,
- $h(\theta) = \int\limits_\mathscr{X}g(x)e^{a(\theta)^Tu(x)}dx$ — нормировочная константа.
- Если $a(\theta) = \theta$, будем говорить что \emph{параметризация естественная}.
- \end{definition}
- \begin{example}
- $\mathcal{P} = \{\mathcal{N}(a, \sigma^2 \vert a \in \mathbb{R}, \sigma > 0\}$. Перейдем к естественным параметрам:
- $$p(x) = \dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{(x-a)^2}{2\sigma^2}\right) = \dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\dfrac{x^2}{2\sigma^2} + \dfrac{xa}{\sigma^2} - \dfrac{a^2}{2\sigma^2}\right).$$
- Введем параметры $\theta = (\theta_1, \theta_2)$: $\theta_1 = -\dfrac{1}{2\sigma^2},\ \theta_2 = \dfrac{a}{\sigma^2}.$
- $$ p(x) = \sqrt{-\dfrac{\theta_1}{\pi}}e^{\theta_1x^2 + \theta_2x + \frac{\theta_2^2}{4\theta_1}}. $$
- $u(x) = \begin{pmatrix}
- x^2 \\
- x
- \end{pmatrix}, a(\theta) = \theta,\ g(x) = 1,\ h(\theta)= \sqrt{-\dfrac{\theta_1}{\pi}}e^{\frac{\theta_2^2}{4\theta_1}}$.
- Найдем достаточные статистики для семейства $\mathcal{P}$:
- $$p_\theta(x_1, \dots, x_n) = h^{-n}(\theta)\prod_{i=1}^{n}g(x_i)e^{a({\theta})^T\sum\limits_{i=1}^nu(x_i)}.$$
- По критерию факторизации Неймана-Фишера $S(X) = \sum u(X_i)$ — достаточная статистика.
- \end{example}
- \begin{remark}
- $S(X)$ — статистика фиксированной размерности.
- \end{remark}
- \begin{theorem}
- Пусть $\mathcal{P} = \{P_\theta \vert \theta \in \Theta \}$ — семейство распределений т.ч. плотность $p_\theta(x)$ непрерывно дифференцируема по $x$ и носитель не зависит от $\theta$. Пусть также $S(X)$ — достаточная статистика фиксированной размерности $m$. Тогда семейство $\mathcal{P}$ принадлежит экспоненциальному классу.
- \end{theorem}
- \begin{corollary}
- Если плотность достаточно хорошая, то только семейства из экспоненциального класса допускают сжатие данных с помощю достаточных статистик.
- \end{corollary}
- \begin{example}
- $\;$
- \begin{enumerate}
- \item $\mathcal{P} = \{\text{Коши со сдвигом}\}$ не лежит в экспоненциальном классе $\implies$ нет достаточных статистик фиксированного размера.
- \item $\mathcal{P} = \{U[0, \theta]\}$ — носитель зависит от $\theta$. Однако достаточная статистика фикс. размера существует: $S(X) = X_{(n)}$.
- \end{enumerate}
- \end{example}
- Далее потребуем некоторые условия:
- \begin{enumerate}
- \item Параметризация естественная
- \item $g(x),\ u(x)$ непрерывны
- \item Условие равномерной сходимости интеграла по параметру:
- $$ \forall s\ \forall j \leqslant k\ \exists \varphi(x): \forall \theta \in \Theta \ |g(x)u_s^j(x)e^{\theta u(x)}| \leqslant \varphi(x), $$
- и при этом $\int\limits_{\mathscr{X}}\varphi(x)dx$ сходится.
- \end{enumerate}
- \begin{corollary}
- $\;$
- \begin{enumerate}
- \item $h(\theta)$ непрерывно дифференцируема $k$ раз
- \item $p_\theta(x)$ непрерывно дифференцируема $k$ раз по $\theta$
- \item Можно менять местами $\frac{\partial}{\partial \theta}$ и $\int$
- \end{enumerate}
- \end{corollary}
- \begin{proposition}
- $\;$
- \begin{enumerate}
- \item $$E_\theta u(X_1) = \nabla \ln h(\theta) = \left(\frac{\partial}{\partial \theta} \ln h(\theta)\right)_j$$
- \item $$D_\theta u(X_1) = \nabla^2 \ln h(\theta) = \left(\frac{\partial^2}{\partial \theta^2} \ln h(\theta)\right)_{jk}$$
- \end{enumerate}
- \end{proposition}
- \begin{proof}
- $$\frac{\partial h(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta}\int\limits_\mathscr{X} g(x)e^{\theta^Tu(x)}dx = \{\text{следствие 3}\} = \int\limits_\mathscr{X} u_j(x)g(x)e^{\theta^Tu(x)}dx=$$
- $$= h(\theta)\int\limits_\mathscr{X}\dfrac{u_j(x)}{h(\theta)})g(x)e^{\theta^Tu(x)}dx = h(\theta)E_\theta u_j(X_1).$$
- $$ E_\theta u_j(X_1) = \dfrac{\partial h(\theta) / \partial \theta_j}{h(\theta)} = \dfrac{\partial \ln h(\theta)}{\partial \theta}$$
- \end{proof}
- \begin{proposition}
- Если $\Theta$ — выпуклое множество, то ОМП существует и единственна.
- \end{proposition}
- \begin{proof}
- $\nabla \nabla \ln h(\theta) = D_\theta u(X_1) \geqslant 0 \implies \ln h(\theta)$ выпукла.
- $l_X(\theta)= \underbrace{\sum \ln g(X_i)}_{\text{не зависит от }\theta} \underbrace{-n\overbrace{\ln h(\theta)}^{выпукла}}_{вогнута} + \underbrace{\theta\sum u(X_i)}_{\text{линейна по }\theta} \implies l_X(\theta)$ вогнута.
- Значит, максимум существует и единственный.
- \end{proof}
- \begin{proposition}
- Если $\Theta$ — выпуклое открытое множество, то выполнены условия L5-L9.
- \end{proposition}
- \begin{proof}
- L5-L7 выполнены из следствий 1-3
- L8: $\frac{\partial \ln p_\theta(x)}{\partial \theta} = \frac{\partial}{\partial \theta}(\ln g(x) - n\ln h(\theta) + \theta u(x)) = \frac{\partial h(\theta)}{h(\theta)} + u(x)$
- $i(\theta) = E_\theta(\frac{\partial \ln p_\theta(X_1)}{\partial \theta})^2$ по утверждению 1 существует и конечна
- L9 следует из того, что $\frac{\partial^2 \ln p_\theta(X_1)}{\partial \theta^2}$ не зависит от $\theta$.
- \end{proof}
- \subsection{2.7. Сравнение оценок}
- Ранее было:
- $X_1, \dots, X_n \sim Exp(\theta)$.
- $\widehat{\theta}_1 = 1/\overline{X}, \ \widehat{\theta}_2 = -\ln \overline{I\{X > 1\}}$ — (сильно) состоятельная, а. н. оценка $\theta$. Хотим построить оценку для $\tau(\theta) \in \mathbb{R}^d$.
- \begin{definition}
- Функция $L: \mathbb{R}^d \times \mathbb{R}^d \rightarrow \mathbb{R}_+$, которая характеризует степень отклонения оценки от $\tau(\theta)$, называется \emph{функцией потерь (loss function)}.
- \end{definition}
- \begin{example}
- $\;$
- \begin{enumerate}
- \item $L(x, y) = (x - y)^2$ — квадратичная функция потерь
- \item $L(x, y) = |x - y|$ — абсолютная функция потерь
- \item $L(x, y) = \log(1 + |x - y|)$
- многомерный случай:
- \item $L(x, y) = (x - y)^TA(x - y)$, $A$ — симметричная, положительно определенная матрица
- если $A = I_d: L(x, y) = \sum\limits_{j = 1}^d (x_j - y_j)^2$.
- \end{enumerate}
- \end{example}
- Пусть $\widehat{\theta}$ — оценка $\tau(\theta)$, $\theta$ — истинное значение параметра. Тогда $L(\widehat{\theta}, \theta)$ — штраф при оценивании $\tau(\theta)$ оценкой $\widehat\theta$.
- Проблема: штраф случаен
- \begin{definition}
- Функция риска
- $$R_{\widehat\theta, \tau}(\theta) = E_\theta L(\widehat\theta, \tau(\theta)).$$
- \end{definition}
- \begin{example}
- $\;$
- \begin{itemize}
- \item $\operatorname{MSE}_{\widehat{\theta}, \tau}(\theta) = E_\theta(\widehat{\theta} - \tau(\theta))^2$ — \emph{среднеквадратичная ошибка}.
- \item $\operatorname{MAE}_{\widehat{\theta}, \tau}(\theta) = E_\theta|\widehat{\theta} - \tau(\theta)|$ — \emph{средняя абсолютная ошибка}.
- \end{itemize}
- \end{example}
- \begin{remark}
- если $\tau(\theta) = \theta$, то индекс $\tau$ опускаем.
- \end{remark}
- \begin{problem}
- $X_1, \dots, X_n$ — выборка. $\widehat{\theta}_1 = X_1, \ \widehat{\theta}_2 = \overline{X}$ — оценки $\tau(\theta) = E_\theta(X_1)$. Посчитать MSE.
- \end{problem}
- \begin{solution}
- $ \operatorname{MSE}_{\widehat{\theta}_1, \tau}(\theta) = E_\theta(X_1 - E_\theta X_1)^2 = D_\theta X_1$
- $\qquad \operatorname{MSE}_{\widehat{\theta}_2, \tau}(\theta) = E_\theta(\overline{X} - E_\theta \overline{X})^2 = D_\theta \overline{X} = \frac{1}{n}D_\theta X_1.$
- \end{solution}
- \textbf{Вывод:} усреднение уменьшает среднеквадратичный риск в $n$ раз.
- \subsubsection{Подходы к сравнению оценок}
- \subsubsection{1. Равномерный}
- \begin{itemize}
- \item $\widehat\theta_1$ \emph{не хуже} $\widehat\theta_2$, если $\forall \theta R_{\widehat{\theta}_1, \tau (\theta)}\leqslant R_{\widehat{\theta}_2, \tau (\theta)}$.
- \item $\widehat\theta_1$ \emph{лучше} $\widehat\theta_2$, если, кроме того, $\exists \theta: R_{\widehat{\theta}_1, \tau (\theta)} < R_{\widehat{\theta}_2, \tau (\theta)}$.
- \item Пусть $\mathscr{K}$ — множество оценок. $\widehat{\theta}$ — \emph{наилучшая в $\mathscr{K}$}, если она лучше всех оценок из $\mathscr{K}$.
- \item Если $L(x, y) = (x - y)^2$, то подход называется \emph{среднеквадратичным}.
- \end{itemize}
- \begin{proposition}
- Наилучшей оценки может не существовать.
- \end{proposition}
- \begin{proof}
- $\mathscr{K} = \{\widehat{\theta}_1 \equiv 1, \widehat{\theta}_2 \equiv 2\}$
- $\qquad \operatorname{MSE}_{\widehat{\theta}_1}(\theta) = E_\theta(\theta - 1)^2 = (\theta - 1)^2$
- $\qquad \operatorname{MSE}_{\widehat{\theta}_2}(\theta) = E_\theta(\theta - 2)^2 = (\theta - 2)^2$
- Если $\theta < 1.5$, то $\operatorname{MSE}_{\widehat{\theta}_1}(\theta) < \operatorname{MSE}_{\widehat{\theta}_2}(\theta)$; если $\theta > 1.5$, то $\operatorname{MSE}_{\widehat{\theta}_2}(\theta) < \operatorname{MSE}_{\widehat{\theta}_1}(\theta)$
- \end{proof}
- \begin{proposition}
- Справедливо bias-variance разложение:
- $$ \underbrace{\operatorname{MSE}_{\widehat{\theta}, \tau}(\theta)}_{error} = \underbrace{D_\theta \widehat{\theta}}_{variance} + \underbrace{(E_\theta \widehat{\theta} - \theta)^2}_{bias^2}.$$
- \end{proposition}
- \begin{proof}
- $\operatorname{MSE}_{\widehat{\theta}, \tau}(\theta)= E_\theta(\widehat{\theta} - \tau(\theta))^2 = E_\theta((\widehat{\theta} - E_\theta\widehat{\theta}) + (E_\theta\widehat{\theta} - \tau(\theta))^2 = E_\theta(\widehat{\theta} - E_\theta(\widehat{\theta}))^2 + 2E_\theta(\widehat{\theta} - E_\theta\widehat{\theta})(E_\theta\widehat{\theta} - \tau(\theta)) + (E_\theta(\widehat{\theta}) - \tau(\theta))^2$
- Второе слагаемое равно нулю, следовательно, получаем требуемое.
- \end{proof}
- \begin{corollary}
- Среди все несмещенных оценок наилучшей будет та, у которой меньше дисперсия.
- \end{corollary}
- \subsubsection{2. Байесовский}
- Пусть $Q$ — некоторое распределение на $\Theta$. Тогда $\widehat{\theta}_1$ не хуже $\widehat{\theta}_2$, если $E_QR_{\widehat\theta_1}(\theta) \leqslant E_QR_{\widehat\theta_2}(\theta)$.
- \subsubsection{3. Минимаксный}
- $\widehat{\theta}_1$ не хуже $\widehat{\theta}_2$, если $\displaystyle\sup_{\theta \in \Theta}R_{\widehat\theta_1}(\theta) \leqslant \displaystyle\sup_{\theta \in \Theta}R_{\widehat\theta_2}(\theta)$.
- \subsubsection{4. Асимптотический (для а.н.о)}
- Пусть $\widehat{\theta}_1, \widehat{\theta}_2$ — а.н.о. $\tau(\theta)$ с асимпт. дисперсией $\sigma_1^2$ и $\sigma^2_2$. Тогда
- \begin{itemize}
- \item $\widehat{\theta}_1$ не хуже $\widehat{\theta}_2$, если $\sigma_1(\theta) \leqslant \sigma_2(\theta)\ \forall \theta \in \Theta$.
- \item $\widehat{\theta}_1$ лучше $\widehat{\theta}_2$, если, кроме того $\exists \theta \in \Theta: \ \sigma_1(\theta) < \sigma_2(\theta)$.
- \item \emph{Относительная асимптотическая эффективность}: $\operatorname{ARE}_{\widehat{\theta}_1, \widehat{\theta}_2}^{\tau}(\theta) = \dfrac{\sigma_2^2}{\sigma_1^2}$ показывает, насколько $\widehat{\theta}_1$ лучше $\widehat{\theta}_2$.
- \end{itemize}
- $\widehat{\theta}_1$ не хуже $\widehat{\theta}_2$, если $\operatorname{ARE}_{\widehat{\theta}_1, \widehat{\theta}_2}^{\tau}(\theta) \geqslant 1 \forall \theta \in \Theta$.
- \begin{definition}
- Оценка $\widehat{\theta}$ называется \emph{асимптотически эффективной оценкой $\tau(\theta)$}, если она имеет наименьшую асимптотическую дисперсию среди всех а.н.о. $\tau(\theta)$ с непрерывной а. д.
- \end{definition}
- \begin{proposition}
- Если выполнены условия L1-L9, то ОМП асимптотически эффективна.
- \end{proposition}
- \begin{example}
- $X_1, \dots, X_n \sim \mathcal{N}(\theta, 1)$.
- \begin{itemize}
- \item ОМП: $\widehat{\theta}_1 = \overline{X}$ — а.н.о $\theta$ c а.д. $\sigma_1^2 = 1$.
- \item Теор. о выборочной медиане: $\widehat\theta_2 = \widehat{\mu}$ — а.н.о $\theta$ с а.д. $\sigma_2^2 = \frac{2\pi}{4} = \frac{\pi}{2}$.
- \end{itemize}
- $\operatorname{ARE}_{\overline{X}, \widehat{\mu}}(\theta) = \frac{\sigma_2^2(\theta)}{\sigma_1^2(\theta)} = \frac{\pi}{2} \approx 1.57$.
- \end{example}
- \section{Лекция 6 (от 7.10)}
- \subsection{2.8. Приближенный поиск ОМП}
- \subsubsection{Метод Ньютона:}
- Пусть $f: \mathbb{R} \rightarrow \mathbb{R}$ — функция. Нужно решить уравнение $f(x) = 0$.
- $x_0$ — начальное приближение
- Формула касательной в точке $x_k: y = f(x_k) + f'(x_k)(x-x_k).$ Получим соотношение
- $$x_{k+1} = x_k - \dfrac{f(x_k)}{f'(x_k)}.$$
- Пусть $X = (X_1, \dots, X_n)$ — выборка из неизвестного распределения $P \in \{P_\theta \ \vert \ \theta \in \Theta\}, \Theta \subset \mathbb{R}^d$. Пусть $\theta^*$ — ОМП. Хотим приблизить оценку $\theta^*$.
- Уравнение правдоподобия: $\dfrac{\partial l_X(\theta)}{\partial \theta} = 0.$ Применим метод Ньютона для функции $l'_X(\theta)$.
- $\widehat{\theta}_0$ — начальное приближение. Шаг метода:
- $$ \widehat{\theta}_{k+1} = \widehat{\theta}_k - \underbrace{(l_X''(\widehat{\theta}_k))^{-1}}_{матрица} \cdot \underbrace{l_X'(\widehat{\theta}_k)}_{вектор} .$$
- \begin{theorem}
- В условиях регулярности $L1-L9$, если $\widehat{\theta}_0$ — а.н.о, то
- \begin{enumerate}
- \item $\widehat{\theta}_1$ — а.н.о с асимт. дисперсией $(i(\theta))^{-1}$.
- \item $\widehat{\theta}_1$ асимптотически эквивалентна ОМП $\theta^*$, т.е
- $$\sqrt{n}(\widehat{\theta}_1 - \theta^*) \xrightarrow{P_\theta} 0.$$
- \end{enumerate}
- \end{theorem}
- \begin{proof}
- (для $d=1$, идея)
- \begin{proposition}[б/д]
- $\widehat{\theta}_1 - \theta^* = (\widehat{\theta}_0 - \theta^*)\varepsilon_n(\theta)$, где $\varepsilon_n(\theta)\xrightarrow{P_\theta} 0$.
- \end{proposition}
- (2). $\sqrt{n}(\widehat{\theta}_1 - \theta^*) = \sqrt{n}(\widehat{\theta}_0 - \theta^*)\varepsilon_n(\theta) =\\ {} \\ = \underbrace{\sqrt{n}(\widehat{\theta}_0 - \theta)}_{\xrightarrow{d_\theta} \mathcal{N}(0, \dots)}\underbrace{\varepsilon_n(\theta)}_{\xrightarrow{d_\theta} 0} + \underbrace{\sqrt{n}(\theta - \theta^*)}_{\xrightarrow{d_\theta} \mathcal{N}(0, \dots)}\underbrace{\varepsilon_n(\theta)}_{\xrightarrow{d_\theta} 0}.$
- По лемме Слуцкого первое слагаемое $\xrightarrow{d_\theta} 0$, второе слагаемое $\xrightarrow{d_\theta} 0$. Применяя еще раз лемму Слуцкого для их суммы, получим $\sqrt{n}(\widehat{\theta}_1 - \theta^*) \xrightarrow{d_\theta (\iff P_\theta, \text{т.к const)}} 0$.
- (1). $\sqrt{n}(\widehat{\theta}_1 - \theta) = \underbrace{\sqrt{n}(\widehat{\theta}_1 - \theta^*)}_{\xrightarrow{P_\theta} 0 \text{(из (2))}} - \underbrace{\sqrt{n}(\widehat{\theta}_0 - \theta)}_{\xrightarrow{d_\theta} \mathcal{N}(0, \frac{1}{i(\theta)}) \text{ (ОМП)}}$. По лемме Слуцкого
- $$ \sqrt{n}(\widehat{\theta}_1 - \theta) \xrightarrow{d_\theta} \mathcal{N}\left(0, \frac{1}{i(\theta)}\right)$$
- \end{proof}
- \begin{remark}
- Утверждение теоремы не изменится, если заменить $l_X''(\theta)$ на $E_\theta l_X''(\theta) = -ni(\theta)$, т.е.
- $$ \widehat{\theta}_{k+1} = \widehat{\theta}_{k} + \dfrac{i(\widehat{\theta}_{k})^{-1}}{n}l'_X(\widehat{\theta}_{k}). $$
- \end{remark}
- \begin{definition}
- Оценка $\widehat{\theta}_{1}$ называется \emph{одношаговой оценкой}.
- \end{definition}
- \begin{sense}
- Отклонение $\widehat{\theta}_1$ от $\theta^*$ на порядок менььше, чем отклонение $\theta^*$ от $\theta$. Значит отклонение $\widehat{\theta}_1$ от $\theta$ тоже имеет порядок $\sqrt{\frac{1/i(\theta)}{n}}$.
- \end{sense}
- \begin{example}[$\gamma$-котики]
- $\widehat{\mu}$ — а.н.о. с асимпт. дисперсией $\pi^2/4 \approx 2.47$. При этом $i(\theta) = 1/2,$ т.е наименьшая возможная асимпт. дисперсия равна $2$. Запишем одношаговую оценку:
- $$ \widehat{\theta}_1 = \widehat{\mu} + \dfrac{\sum\limits_{i=1}^n \frac{X_i - \widehat{\mu}}{1 + (X_i - \widehat{\mu})^2} }{\sum\limits_{i=1}^n \frac{1 - (X_i - \widehat{\mu})^2}{(1 + (X_i - \widehat{\mu})^2)^2}}. $$
- $\widehat{\theta}_1$ — наиболее асимптотически эффективная оценка.
- \end{example}
- \subsection{2.9. Робастность и симметричные распределения}
- Пусть $X = (X_1, \dots, X_n)$ — выборка из $\mathcal{N}(\theta, \sigma^2)$, $\sigma$ известна.
- Оценка $\widehat{\theta} = \overline{X}$ обладает всеми хорошими свойствами (сильная состоятельность, асимптотическая нормальность, ОМП и т. д.). Однако если в данных есть выбросы, то все свойства теряются.
- Для того, чтобы визуализировать выбросы в данных, можно использовать \emph{ящик с усами (box plot)}.
- Будем рассматривать только одномерный случай.
- \begin{definition}
- \emph{Робастная оценка} — оценка, допускающая отклонение от заданной модели.
- \end{definition}
- \begin{definition}
- Пусть оценка имеет вид $\widehat{\theta} = f(X_{(1)}, \dots, X_{(n)})$.
- Пусть $k_n^*$ — наименьшее число $k$, т. ч. выполнено одно из условий:
- \begin{enumerate}
- \item Если $x_1, \dots, x_{k+1} \to -\infty$, а $x_{k+2}, \dots, x_n$ фиксированы,то $f(x_1, \dots, x_n) \to -\infty$.
- \item Если $x_{n-k}, \dots, x_n \to +\infty$, а $x_1, \dots, x_{n-k+1}$ фиксированы, то $f(x_1, \dots, x_n) \to +\infty$.
- \end{enumerate}
- Тогда число $\tau_{\widehat{\theta}} = \displaystyle\lim_{n\to\infty} \dfrac{k_n^*}{n}$ называется \emph{асимптотической толерантностью оценки $\widehat{\theta}$.}
- \end{definition}
- \begin{sense}
- $\tau(\theta)$ — наибольшая доля выбросов, которые способна выдержать оценка, не смещаясь на $\pm \infty$.
- \end{sense}
- \begin{example}
- \begin{itemize}
- \item $\overline{X}: k_{n}^* = 0, \tau_{\overline{X}} = 0$
- \item $\widehat{\mu}: k_{n}^* = \lceil n/2 \rceil - 1, \tau_{\widehat{\mu}} = 1/2$.
- \end{itemize}
- \end{example}
- Далее будем рассматривать класс распределений $\mathcal{P} = \{P_\theta \vert \theta \in \Theta\}$, т. ч.
- \begin{itemize}
- \item $P_0$ имеет плотность $p_0(x)$ — симметричная, непрерывная, носитель плотности имеет вид $(-c, c),\ 0<c\leqslant +\infty$.
- \item $\theta$ — параметр сдвига, т. е. $p_\theta(x) = p_0(x-\theta $.
- \end{itemize}
- Будем искать оценки, которые:
- \begin{enumerate}
- \item Достаточно эффективные в классе $\mathcal{P}$ (в асимптотическом подходе).
- \item Робастные — допускают отклонение от $\mathcal{P}$.
- \end{enumerate}
- \subsubsection{1. Усеченное среднее}
- \begin{definition}
- Пусть $\alpha \in (0, 1/2),\ k = \lceil \alpha n \rceil.$ Тогда \emph{усеченным средним по выборке $X_1, \dots, X_n$} называется оценка
- $$ \overline{X}_\alpha = \dfrac{1}{n-2k}(X_{(k-1)} + \dots + X_{(n - k)}).$$
- \end{definition}
- \begin{itemize}
- \item $\alpha = 0$: $\overline{X}_\alpha = \overline{X}$
- \item $\alpha = 1/2:$ $\overline{X}_\alpha = \widehat{\mu}.$
- \end{itemize}
- Асимптотическая толерантность: $\tau_{\overline{X}_\alpha} = \alpha$.
- \begin{theorem}[б/д]
- Пусть $X = (X_1, \dots, X_n)$ — выборка из распределения $P \in \mathcal{P}$. Тогда
- $$ \sqrt{n}(\overline{X}_\alpha - \theta) \xrightarrow{d_\theta} \mathcal{N}(0, \sigma^2_\alpha), \text{ где}$$
- $$ \sigma^2_\alpha = \dfrac{2}{(1-2\alpha)^2}\left(\int\limits_0^{u_{1-\alpha}} x^2p_0(x)dx + \alpha u^2_{1-\alpha} \right), $$
- $u_{1-\alpha}$ — $(1 - \alpha)$-квантиль распределения $P_0$.
- \end{theorem}
- \begin{example}
- для $\mathcal{N}(0, 1)$
- \begin{table}[]
- \begin{tabular}{|l|l|l|l|l|l|l|}
- \hline
- $\alpha$ & $0$ & $1/20$ & $1/8$ & $1/4$ & $3/8$ & $1/2$ \\ \hline
- $\operatorname{ARE}_{\overline{X}_\alpha, \overline{X}}$ & $1$ & $0.99$ & $0.94$ & $0.84$ & $0.74$ & $0.64$ \\ \hline
- \end{tabular}
- \end{table}
- При $\alpha = 1/8$ достигается защита от $12.5 \%$ загрязнения выборки, но эффективность теряется на $6 \%$.
- \end{example}
- \begin{proposition}
- Если $D_\theta X_1 < +\infty$, то $\operatorname{ARE}_{\overline{X}_\alpha, \overline{X}} \geqslant (1-2\alpha)^2.$
- \end{proposition}
- \begin{proof}
- $\overline{X}_\alpha$ — а.н.о $\theta$ с асимпт. дисперсией $\sigma_\alpha^2$.
- Из ЦПТ: $\overline{X}$ — а.н.о $\theta$ с асимпт. дисперсией $D_\theta X_1$. Так как дисперсия не зависит от сдвига, посчитаем дисперсию при $\theta = 0$:
- $$ \dfrac{1}{2}D_\theta X_1 = \dfrac{1}{2} \int\limits_{\mathbb{R}} x^2p_0(x)dx = \int\limits_0^{+\infty}x^2p_0(x)dx =$$
- $$= \int\limits_0^{u_{1-\alpha}}x^2p_0(x)dx + \int\limits_{u_{1-\alpha}}^{+\infty}x^2p_0(x)dx \geqslant$$
- $$\geqslant \int\limits_0^{u_{1-\alpha}}x^2p_0(x)dx + u_{1-\alpha}^2\underbrace{\int\limits_{u_{1-\alpha}}^{+\infty}p_0(x)dx}_{=\alpha} = \int\limits_0^{u_{1-\alpha}}x^2p_0(x)dx + \alpha u^2_{1 - \alpha}
- = \dfrac{\sigma^2_\alpha (1 - 2\alpha)^2}{2}. $$
- Отсюда $\operatorname{ARE}_{\overline{X}_\alpha, \overline{X}} = \dfrac{D_\theta X_1}{\sigma^2_\alpha} \geqslant (1 - 2\alpha)^2$
- \end{proof}
- \begin{table}[]
- \begin{tabular}{|l|l|l|l|l|l|l|}
- \hline
- $\alpha$ & $0$ & $1/20$ & $1/8$ & $1/4$ & $3/8$ & $1/2$ \\ \hline
- $(1 - 2\alpha)^2$ & $1$ & $0.81$ & $0.5$ & $0.25$ & $0.06$ & $0$ \\ \hline
- \end{tabular}
- \end{table}
- При $\alpha = 1/8$ возможна потеря эффективности до $44 \%$.
- \subsubsection{2. Медиана средних Уолша}
- \begin{definition}
- $Y_{ij} = \dfrac{X_i + X_j}{2}$ — \emph{среднее Уолша}.
- $W = \operatorname{med} \{Y_{ij},\ 1 \leqslant i \leqslant j \leqslant n\}$ — \emph{медиана средних Уолша.}
- \end{definition}
- \begin{theorem}
- Пусть $X = (X_1, \dots, X_n)$ — выборка из распределения $P \in \mathcal{P}$. Тогда
- $$ \sqrt{n}(W - \theta) \xrightarrow{d_\theta} \mathcal{N}(0, \sigma^2), \text{ где}$$
- $$ \sigma^2 = \dfrac{1}{12\left(\int\limits_\mathbb{R} p_0^2(x)dx\right)^2}. $$
- \end{theorem}
- \begin{example}
- $\mathcal{N}(0,1): \operatorname{ARE}_{W, \overline{X}} \approx 0.955$ (потеря эффективности на $4.5 \%$).
- \end{example}
- \begin{proposition}
- Для $P_\theta \in \mathcal{P} \operatorname{ARE}_{W, \overline{X}} \geqslant \frac{108}{125} = 0.864$ (в худшем случае теряем $14\%$ эффективности). Равенство достигается при
- $$ p_0(x) = \dfrac{3\sqrt{5}}{100}(5 - x^2)I\{|x| < \sqrt{5}\}.$$
- \end{proposition}
- \begin{proposition}
- $\tau_{W} \approx 0.293$ (доказательство см. в ДЗ).
- \end{proposition}
- \chapter{Глава 3. Сложные оценки параметров}
- \subsection{3.1. Доверительные интервалы}
- \begin{definition}
- Пусть $X = (X_1, \dots, X_n)$ — выборка из неизвестного распределения $P \in \{P_\theta \ \vert \ \theta \in \Theta\}$.
- \begin{itemize}
- \item Если $\Theta \subset \mathbb{R}$, то пара статистик $(T_1(X), T_2(X))$ называется \emph{доверительным интервалом для $\theta$ уровня доверия $\alpha$,} если
- $$\forall \theta \in \Theta \quad P_\theta(T_1(X) \leqslant \theta \leqslant T_2(X) ) \geqslant \alpha.$$
- \item Если $\Theta \subset \mathbb{R}^d$, то статистика $S(X) \subset \Theta$ называется \emph{доверительной областью для $\theta$ уровня доверия $\alpha$,} если
- $$\forall \theta \in \Theta \quad P_\theta(\theta \in S(X) ) \geqslant \alpha. $$
- \item Если равенство точное, то интервал называтся \emph{точным}.
- \end{itemize}
- \end{definition}
- \begin{remark}
- \begin{enumerate}
- \item Если $X = (X_1, \dots, X_n)$ — выборка, то утверждение $P_\theta(T_1(X) \leqslant \theta \leqslant T_2(X) ) = \alpha$ имеет смысл ($(T_1(X), T_2(X))$ — доверительный интервал).
- \item Если $x = (x_1, \dots, x_n)$ — реализация выборки, то утверждение $P_\theta(T_1(x) \leqslant \theta \leqslant T_2(x) ) = \alpha$ некорректно.
- \end{enumerate}
- $(T_1(x), T_2(x))$ — \emph{реализация доверительного интервала}.
- \end{remark}
- \textbf{Первая магическая константа статистики:} $\alpha = 0.95 \text{ (она же } 0.05).$
- \section{Лекция 7 (от 14.10)}
- \subsubsection{Методы поиска доверительных интервалов}
- \subsubsection{1. Метод центральной функции}
- Пусть $G(X, \theta)$ — функция, распределение которой известно и не зависит от $\theta$ \emph{(центральная функция)}. Возьмем $\alpha_1, \alpha_2 \in (0, 1)$ т. ч. $\alpha_2 -\alpha_1 = \alpha$ и $g_j$ — $\alpha_j$-квантиль распределения $G(X, \theta)$. Тогда $S(X) = \{\theta \in \Theta \vert g_1 \leqslant G(X, \theta) \leqslant g_2 \}$ — доверительная область уровня доверия $\alpha$.
- Действительно, $P_\theta(\theta \in S(X)) = P_\theta(g_1 \leqslant G(X, \theta) \leqslant g_2) = \alpha_2 - \alpha_1 = \alpha.$
- \begin{example}
- $X_1, \dots, X_n \sim \mathcal{N}(\theta, \sigma^2)$, $\sigma$ известно. Построить точные доверительные интервалы для $\theta$.
- \end{example}
- \begin{solution}
- аметим, что $X_i - \theta \sim \mathcal{N}(0, \sigma^2)$, следовательно, $\overline{X} - \theta \sim \mathcal{N}(0, \frac{\sigma^2}{n}).$
- $G(X, \theta) = \sqrt{n}\dfrac{\overline{X} - \theta}{\sigma} \sim \mathcal{N}(0, 1)$ — центральная функция. Будем обозначать через $z_p$ $\ p$-квантили распределения $\mathcal{N}(0, 1)$. Тогда
- $$ P_\theta\left(-z_{\frac{1+\alpha}{2}} \leqslant\sqrt{n}\dfrac{\overline{X} - \theta}{\sigma} \leqslant z_{\frac{1+\alpha}{2}} \right) = \alpha \implies P_\theta \left(\overline{X} - \dfrac{z_{\frac{1+\alpha}{2}} \sigma}{\sqrt{n}} \leqslant \theta \leqslant \overline{X} + \dfrac{z_{\frac{1+\alpha}{2}} \sigma}{\sqrt{n}} \right) = \alpha.
- $$
- \end{solution}
- \textbf{Ответ:}$\left(\overline{X} \pm \dfrac{z_{\frac{1+\alpha}{2}} \sigma}{\sqrt{n}}\right)$.
- Пусть $\alpha = 0.95 \implies z_{\frac{1+\alpha}{2}} = z_{0.975} \approx 1.96 \approx 2$. $n = 100, \overline{x} = 5, \sigma=1$. Тогда реализация интервала $(5 \pm 2/10) = (4.8, 5.2).$
- \subsubsection{2. Асимптотические доверительные интервалы}
- \begin{definition}
- Пусть $X = (X_1, X_2, \dots)$ — выборка неограниченного размера из распределения $P \in \{P_\theta \vert \theta \in \Theta\}$. Последовательность пар статистик $(T_1^{(n)}(X_1, \dots, X_n), T_2^{(n)}(X_1, \dots, X_n))$ называется \emph{асимптотическим доверительным интервалом} уровня доверия $\alpha$, если
- $$\forall \theta \in \Theta \liminf_{n \to\infty} P_\theta(T_1^{(n)}(X_1, \dots, X_n) \leqslant \theta \leqslant T_2^{(n)}(X_1, \dots, X_n)) \geqslant \alpha. $$
- Он называется \emph{точным}, если
- $$\forall \theta \in \Theta \lim_{n\to\infty} P_\theta(T_1^{(n)}\leqslant \theta \leqslant T_2^{(n)}) = \alpha.$$
- \end{definition}
- \textbf{Метод построения асимптотического доверительного интервала:}
- \begin{enumerate}
- \item Пусть $\widehat{\theta}$ — а.н.о $\theta$ с асимпт. дисперсией $\sigma^2(\theta)$.
- $$\sqrt{n}(\widehat{\theta} - \theta) \xrightarrow{d_\theta} \mathcal{N}(0, \sigma^2(\theta)). $$
- \item Поделим все на $\sigma(\theta)$:
- $$\dfrac{\sqrt{n}(\widehat{\theta} - \theta)}{\sigma(\theta)} \xrightarrow{d_\theta} \mathcal{N}(0, 1). $$
- Из теоремы Александрова
- $$ P_\theta\left(\dfrac{\sqrt{n}|\widehat{\theta} - \theta|}{\sigma(\theta)} \leqslant z_{\frac{1+\alpha}{2}}\right) \rightarrow \alpha. $$
- Проблема: $\sigma(\theta)$ может плохо зависеть от $\theta$.
- \item Пусть $\widehat{\sigma}$ — состоятельная оценка $\sigma(\theta)$. Тогда
- $$ \sqrt{n}\dfrac{\widehat{\theta} - \theta}{\widehat{\sigma}} = \underbrace{\sqrt{n}\dfrac{\widehat{\theta} - \theta}{\sigma(\theta)}}_{\xrightarrow{d_\theta} \mathcal{N}(0,1)} \cdot \underbrace{\dfrac{\sigma(\theta)}{\widehat{\sigma}}}_{\xrightarrow{P_\theta} 1 \text{ (th о насл. сх-тей)}}. $$
- По лемме Слуцкого $\sqrt{n}\dfrac{\widehat{\theta} - \theta}{\widehat{\sigma}} \xrightarrow{d_\theta} \mathcal{N}(0, 1)$.
- \item $P_\theta\left(\dfrac{\sqrt{n}|\widehat{\theta} - \theta|}{\widehat{\sigma}} \leqslant z_{\frac{1+\alpha}{2}}\right) \rightarrow \alpha.$ Получаем интервал $\left(\widehat{\theta} \pm \dfrac{z_{\frac{1+\alpha}{2}} \widehat{\sigma}}{\sqrt{n}} \right)$ — точный асимптотический доверительный интервал уровная доверия $\alpha$.
- \item Откуда взять $\widehat{\sigma}$?
- Если $\sigma(\theta)$ непрерывна, то по теореме о наследовании сходимостей $\widehat{\sigma} = \sigma(\widehat{\theta})$ — состоятельная оценка $\sigma(\theta)$.
- \end{enumerate}
- \begin{example}
- $\;$
- \begin{enumerate}
- \item $X_1, \dots, X_n \sim \mathcal{N}(\theta, \sigma^2), \ \sigma$ неизвестна. Построить асимптотический доверительный интервал уровня доверия $\alpha$ для $\theta$.
- $\triangle \quad \overline{X}$ — а.н.о $\theta$ c асимпт. дисперсией $\sigma^2$. $S$ — состоятельная оценка $\theta$. Получаем интервал $\left(\overline{X} \pm z_{\frac{1+\alpha}{2}}\dfrac{S}{\sqrt{n}}\right). \quad \square$
- \item $X_1, \dots, X_n \sim Pois(\theta)$. Построить асимптотический доверительный интервал уровня доверия $\alpha$ для $\theta$.
- $\triangle \quad \overline{X}$ — а.н.о $\theta$ c асимпт. дисперсией $\sigma^2(\theta) = \theta$. $\sqrt{\overline{X}}$ — состоятельная оценка $\sigma(\theta) = \sqrt{\theta}.$ Получаем интервал $\left(\overline{X} \pm z_{\frac{1+\alpha}{2}}\sqrt{\dfrac{\overline{X}}{n}}\right). \quad \square$
- \end{enumerate}
- \end{example}
- \begin{remark}
- При $n=30$ условие ЦПТ применимо с хорошей точностью. Поэтому при $n \geqslant 30$ имеет смысл пользоваться асимптотическими доверительными интервалами.
- \end{remark}
- \subsection{3.2. Точные доверительные интервалы в нормальной модели}
- Пусть $X = (X_1, \dots, X_n) \sim \mathcal{N}(a, \sigma^2).$
- \subsubsection{1. Интервал для $a$, если $\sigma$ известна}
- Уже получили: $\left(\overline{X} \pm z_{\frac{1+\alpha}{2}}\dfrac{S}{\sqrt{n}}\right)$.
- \subsubsection{2. Интервал для $\sigma$, если $a$ известно}
- $\dfrac{X_i - \theta}{\sigma} \sim \mathcal{N}(0, 1)$
- $G(X, \theta) = \sum\limits_{i=1}^n\left(\dfrac{X_i - a}{\sigma}\right)^2 \sim \chi^2_n$ — центральная функция \emph{(распределение хи-квадрат с $n$ степенями свободы)}
- $$ P_\theta\left(\chi^2_{n, \frac{1-\alpha}{2}} \leqslant \dfrac{1}{\sigma^2}\sum_{i=1}^n (X_i - a)^2 \leqslant \chi^2_{n, \frac{1+\alpha}{2}} \right) = \alpha $$
- Получаем интервал $\left(\sqrt{\dfrac{\sum(X_i - a)^2}{\chi^2_{n, \frac{1+\alpha}{2}}}}, \sqrt{\dfrac{\sum(X_i - a)^2}{\chi^2_{n, \frac{1-\alpha}{2}}}}\right)$.
- \subsubsection{3. Интервал для $a$, если $\sigma$ неизвестна}
- \begin{theorem}
- Пусть $X=(X_1, \dots, X_n) \sim \mathcal{N}(a, \sigma^2)$. Тогда:
- \begin{enumerate}
- \item Статистики $\overline{X}$ и $S^2$ независимы
- \item $\dfrac{nS^2}{\sigma^2} \sim \chi_{n-1}^2$
- \item $\sqrt{n-1} \dfrac{\overline{X} - a}{S} \sim T_{n-1}$ — \emph{распределение Стьюдента с $n-1$ степенями свободы}.
- \end{enumerate}
- \end{theorem}
- \begin{proof}
- 1), 2) — позже
- 3) $\sqrt{n} \dfrac{\overline{X} - a}{\sigma} \sim \mathcal{N}(0, 1); \ \dfrac{nS^2}{\sigma^2} \sim \chi^2_{n-1}$
- Свойство распределения Стьюдента: если $\xi \sim \mathcal{N}(0, 1), \eta \sim \chi^2_k$ — независимые с.в., то $\zeta = \frac{\xi}{\sqrt{\eta / k}} \sim T_k$. Следовательно:
- $$ \dfrac{\sqrt{n}\dfrac{\overline{X} - a}{\sigma}}{\sqrt{\dfrac{nS^2}{\sigma^2} \cdot \dfrac{1}{n-1}}} = \sqrt{n-1}\dfrac{\overline{X} - a}{S} \sim T_{n-1}. \quad \square $$
- \end{proof}
- $G(X, \theta) = \sqrt{n-1}\dfrac{\overline{X} - \theta}{S}$ — центральная функция.
- Получаем интервал $\left(\overline{X} \pm T_{n-1, \frac{1 + \alpha}{2}} \dfrac{S}{\sqrt{n-1}}\right)$.
- \begin{remark}
- При больших $n$ интервал почти совпадает с интервалом из пункта 1.
- \end{remark}
- \subsubsection{4. Интервал для $\sigma$, если $a$ неизвестно}
- $G(X, \sigma) = \dfrac{nS^2}{\sigma^2} \sim \chi^2_{n-1}$ — центральная функция.
- Аналогично п.2 получаем интервал $\left(\sqrt{\dfrac{nS^2}{\chi^2_{n, \frac{1+\alpha}{2}}}}, \sqrt{\dfrac{nS^2}{\chi^2_{n, \frac{1-\alpha}{2}}}}\right)$.
- \begin{theorem}[о разложении гауссовского вектора]
- Пусть $\xi = (\xi_1, \dots, \xi_n) \sim \mathcal{N} (a, \sigma^2 I_n)$, $\mathbb{R}^n = \mathcal{L}_1 \oplus \dots \oplus \mathcal{L}_k$ — разложение в прямую сумму ортогональных подпространств, $\eta_j = \operatorname{proj}_{\mathcal{L}_j} \xi$ — проекция на $\mathcal{L}_j$. Тогда:
- \begin{enumerate}
- \item $\eta_1, \dots, \eta_k$ независимы в совокупности;
- \item $\mathbb{E}\eta_j = \operatorname{proj}_{\mathcal{L}_j} a$;
- \item $\frac{1}{\sigma^2}\Vert \eta_j - \mathbb{E}\eta_j \Vert^2 \sim \chi^2_{d_j}$, где $d_j = \dim \mathcal{L}_j$.
- \end{enumerate}
- \end{theorem}
- \begin{proof}
- Выберем ортонормированный базис в $\mathbb{R}^n$ следуюзим образом:
- $$ \underbrace{e_1, e_2, \dots}_{\text{базис в }\mathcal{L}_1} \underbrace{\dots\dots}_{\text{базис в }\mathcal{L}_2} \dots \underbrace{\dots e_n}_{\text{базис в }\mathcal{L}_k}. $$
- Обозначим:
- \begin{itemize}
- \item $I_j$ — набор индексов, соответствующий базису в $\mathcal{L}_j$;
- \item $B = (e_1, \dots, e_n) \in \mathbb{R}^{n \times n}$ — ортогональная матрица;
- \item $\zeta_i = \langle\xi, e_i\rangle = e^T \xi$ — проекция на $e_i$.
- \end{itemize}
- Получаем:
- $$ \zeta = \begin{pmatrix} \zeta_1 \\ \vdots \\ \zeta_n \end{pmatrix} = \begin{pmatrix} e_1^T \xi \\ \vdots \\ e_n^T\xi \end{pmatrix} = B^T\xi $$
- $$ \xi = \sum_{i=1}^n \langle \xi, e_i \rangle \cdot e_i = \sum_{i=1}^n \zeta_ie_i = (e_1 \dots e_n)\cdot \zeta $$
- $\xi = B\zeta$
- \begin{itemize}
- \item $\mathbb{E}\zeta = \mathbb{E}B^T\xi = B^T\mathbb{E}\xi = B^Ta$
- \item $\mathbb{D}\zeta = \mathbb{D}B^T\xi = B\mathbb{D}\xi B^T = B\sigma^2I_nB^T = \sigma^2 \underbrace{BB^T}_{=I_n} = \sigma^2I_n$
- \end{itemize}
- Вывод: $\zeta$ — гауссовский вектор с независимыми компонентами.
- $$ \eta_j = \operatorname{proj}_{\mathcal{L}_j} \xi = \sum_{i \in I_j} \langle \xi, e_i \rangle e_i = \sum_{i \in I_j} \zeta_i e_i. $$
- Компоненты вектора $\zeta$ в разных $\eta_j$ не пересекаются, следовательно, $\eta_1, \dots, \eta_k$ независимы в совокупности — утв. 1 доказано;
- $\mathbb{E}\eta_j = \displaystyle\sum_{i \in I_j} \langle \mathbb{E}\xi, e_i \rangle e_i = \sum_{i \in I_j} \langle a, e_i \rangle e_i = \operatorname{proj}_{\mathcal{L}_j}a$ — утв. 2 доказано;
- $$ \dfrac{1}{\sigma^2}\Vert \eta_j - \mathbb{E}\eta_j \Vert^2 = \dfrac{1}{\sigma^2} \bigg\rVert \sum_{i \in I_j} \langle\xi - a, e_i \rangle e_i \bigg\rVert^2 = \sum_{i \in I_j} \underbrace{\left(\dfrac{\zeta_i - \mathbb{E}\zeta_i}{\sigma}\right)^2}_{\sim \mathcal{N}(0, 1) \text{ и незав.}} \sim \chi^2_{\dim \mathcal{L}_j}. \quad \square $$
- \end{proof}
- \textbf{Доказательство пп. 1-2 из предыдущей теоремы:}
- \begin{enumerate}
- \item $$\mathbb{R}^n = \mathcal{L} \oplus \mathcal{L}^\bot, \text{ где } \mathcal{L} = \left\langle \begin{pmatrix} 1 \\ 1 \\ \vdots \\ 1 \end{pmatrix} \right\rangle .$$
- $$\operatorname{proj}_\mathcal{L} X = \argmin_{c \in \mathbb{R}} \left\Vert X - \begin{pmatrix} c \\ c \\ \vdots \\ c \end{pmatrix} \right\Vert^2 = \argmin_{c\in \mathbb{R}} \displaystyle\sum_{i=1}^n (X_i - c)^2 = \begin{pmatrix} \overline{X} \\ \overline{X} \\ \vdots \\ \overline{X} \end{pmatrix}.$$
- $$\operatorname{proj}_\mathcal{L^\bot} X = X - \operatorname{proj}_\mathcal{L} X = \begin{pmatrix} X_1 - \overline{X} \\ X_2 - \overline{X} \\ \vdots \\ X_n - \overline{X} \end{pmatrix}. $$
- По теореме о разложении гауссовского вектора $\overline{X}$ и $(X_1 - \overline{X}, \dots, X_n - \overline{X})$ независимы, а $S^2$ зависит только от $(X_1 - \overline{X}, \dots, X_n - \overline{X})$. Вывод: $\overline{X}$ и $S^2$ независимы.
- \item Докажем, что $\dfrac{nS^2}{\sigma^2} \sim \chi_{n-1}^2$:
- $$ \dfrac{1}{\sigma^2}\Vert \operatorname{proj}_\mathcal{L^\bot} X - \mathbb{E}\operatorname{proj}_\mathcal{L^\bot} X \Vert^2 = \dfrac{nS^2}{\sigma^2} \sim \chi_{n-1}^2 $$
- по теореме о разложении гауссовского вектора. $\quad \square$
- \end{enumerate}
- \section{Лекция 8}
- \subsection{3.3. Байесовский подход}
- Пусть $(\Omega, \mathcal{F}, P)$ — вероятностное пространство. $\Omega = \displaystyle{\bigsqcup_{n=1}^\infty} D_n$, то есть $\{D_n\}$ — разбиение. Событие $A \in \mathcal{F}$.
- Теорема Байеса:
- $$P(D_n | A) = \dfrac{P(A| D_n)P(D_n)}{\displaystyle{\sum_{n=1}^\infty} P(A|D_n)P(D_n)}.$$
- Терминология:
- \begin{enumerate}
- \item $A$ — результат эксперимента;
- \item $P(D_n)$ — априорная вероятность $D_n$ \emph{(a priori)};
- \item $P(D_n | A)$ — апостериорная вероятность $D_n$ \emph{(a posteriori)}.
- \end{enumerate}
- \begin{theorem}[общий случай теоремы Байеса]
- Пусть $\xi, \eta$ — случайные векторы. Тогда
- $$p_{\xi|\eta}(x|y) = \dfrac{p_{\eta | \xi}(y|x)p_\xi(x)}{\int p_{\eta|\xi}(y|x)p_\xi(x)dx}.$$
- \end{theorem}
- \subsubsection{Математическое описание байесовского подхода к статистике}
- $\theta$ — случайный вектор, принимающий значения в $\Theta \subset \mathbb{R}^n$, имеющий распределение $Q$ с плотностью $q(t)$.
- \begin{itemize}
- \item $\theta$ — параметр;
- \item $t$ — значение параметра (реализация).
- \end{itemize}
- При $\theta = t$: $X = (X_1, \ldots, X_n)$ — выборка из распределения $P \in \{P_t | t \in \Theta\}$, причем $P_t$ имеет плотность $p_t(x)$.
- Плотность пары $(X, \theta)$ имеет вид:
- $$f(x_1, \ldots, x_n, t) = q(t)p_t(x_1)\cdot \ldots \cdot p_t(x_n).$$
- Способ генерации выборки:
- \begin{enumerate}
- \item Выбрать значение $\theta$ из плотности $q(t)$;
- \item Сгенерировать выборку $X$ из распределения $P_t$, где $t$ — выбранное значение параметра.
- \end{enumerate}
- \begin{remark}
- $Q$ — априорное распределение $\theta$.
- \end{remark}
- \subsubsection{Способы оценки параметра}
- \begin{enumerate}
- \item Апостериорное распределение, которое имеет плотность $$q(t|x) = \dfrac{q(t)\cdot p_t(x_1)\cdot \ldots \cdot p_t(x_n)}{\displaystyle{\int_\Theta} q(t)\cdot p_t(x_1)\cdot \ldots \cdot p_t(x_n)dt}.$$
- \item Доверительный интервал $(u_{\frac{1-\alpha}{2}}, u_{\frac{1+\alpha}{2}})$, где $u_p$ — $p$-квантиль апостериорного распределения.
- \item Точечные оценки
- \begin{enumerate}
- \item $\hat{\theta}_1 = \mathbb{E}(\theta | X)$ — математическое ожидание апостериорного распределения;
- \item $\hat{\theta}_2 = \displaystyle{\argmax_{t \in \Theta}} q(t|X)$ — мода апостериорного распределения;
- \item $\hat{\theta}_3$ — медиана апостериорного распределения.
- \end{enumerate}
- \end{enumerate}
- \begin{example}
- $X_1, \ldots, X_n \sim U[0, \theta + 1]$, причем $\forall i X_i \leqslant 2$, $\theta \sim Bern(1/2)$. Найти апостериорное распределение $\theta$.
- \end{example}
- \begin{solution}
- $$p_t(x_1, \ldots, x_n) = \dfrac{1}{(t+1)^n}I\{X_{(n)}\leqslant t + 1\}$$
- $$q(t) = \dfrac{1}{2} \text{ при } t \in \{0, 1\}$$
- $$q(0|X) = \dfrac{1}{z} \cdot \dfrac{1}{2} I\{X_{(n)} \leqslant 1\},$$
- $z$ — знаменатель в формуле Байеса.
- $$q(1|X) = \dfrac{1}{z} \cdot \dfrac{1}{2} \cdot \dfrac{1}{2^n} = \dfrac{1}{z} \cdot \dfrac{1}{2^{n+1}}.$$
- $$z = \dfrac{1}{2}I\{X_{(n)} \leqslant 1\} + \dfrac{1}{2^{n+1}}.$$
- Ответ: $"\theta|X" \sim Bern(q(1/X))$.
- \end{solution}
- \begin{theorem}
- Пусть $q(t)$ интегрируема по Риману, $p_t(x)$ дифференцируема по $t$, $\sqrt{i(t)}$ интегрируем на любом конечном отрезке. Пусть $\hat{\theta} = \mathbb{E}(\theta|X)$, $\theta^*$ — ОМП для $\theta$. Тогда
- $$\mathbb{E} n(\theta^* - \hat{\theta})^2 \rightarrow 0 \text{ и } \sqrt{n}(\theta^* - \hat{\theta}) \xrightarrow{P} 0.$$
- (при большой выборке подходы почти эквивалентны).
- \end{theorem}
- \begin{theorem}
- Байесовская оценка $\hat{\theta}_1 = \mathbb{E}(\theta|X)$ — наилучшая в байесковском подходе с квадратичной функцией потерь (MSE). Аналогично $\hat{\theta}_3$ — медиана апостериорного распределения — наилучшая оценка в байесковском подходе с MAE.
- \end{theorem}
- \begin{proof}
- Теорема о наилучшем средневадратичном приближении, $X$ — случайный вектор:
- $$\displaystyle{\argmin_{\eta \text { — } X \text{ измерима}}} \mathbb{E}(\xi - \eta)^2 = \mathbb{E}(\xi | X),$$
- $$\int\displaylimits_\Theta MSE_{\hat{\theta}}(t)q(t)dt = \int\displaylimits_\Theta \int\displaylimits_{\mathscr{X}} (\hat{\theta}(x) - t)^2f(x, t)dt dx = \mathbb{E}(\hat{\theta} - \theta)^2 \rightarrow \min$$
- По теореме о наилучшем средневадратичном приближении $\hat{\theta}(X) = \mathbb{E}(\theta | X)$.
- \end{proof}
- \subsection{3.4. Сопряженные распределения в байесовском подходе}
- Недостатки байесовского подхода:
- \begin{enumerate}
- \item Предполагается, что априорное распределение задано и не предлагается конструктивный способ по его выбору.
- \item Требует больших вычислительных затрат.
- \end{enumerate}
- \begin{example}
- $X_1, \ldots, X_n \sim \mathcal{N}(\theta, 1)$. $\theta$ имеет априорное распределение Коши.
- Вычислим знаменатель в формуле Байеса:
- $$\int\displaylimits_{-\infty}^{+\infty} \dfrac{1}{\pi (1 + t^2)} \cdot \dfrac{1}{(2\pi)^{n/2}} \cdot e^{-\dfrac{1}{2}\displaystyle{\sum_{i=1}^n} (X_i - t)^2}dt \text{ — не берется.}$$
- \end{example}
- \begin{definition}
- Пусть $X_1, \ldots, X_n$ — выборка из неизвестного распределения $P \in \mathcal{P}$, где $\mathcal{P} = \{P_t | t\in \Theta\}$ — семейство распределений на $\mathscr{X}$.
- Пусть также на $\Theta$ задано семейство распределений $\mathcal{Q} = \{Q_\alpha | \alpha \in \mathcal{A}\}$. Семейство распределений $\mathcal{Q}$ называется \emph{сопряженным к семейтву $\mathcal{P}$}, если взятии априорного распределения из $\mathcal{Q}$, соответствующее апостериорное распределение тоже лежит в $\mathcal{Q}$.
- Иными словами, если $"X|\theta = t \sim P_t$ и $\theta \sim Q_\alpha$, то $"\theta|X" \sim Q_{\alpha'}$.
- \end{definition}
- \begin{example}
- $X_1, \ldots, X_n \sim Exp(\theta)$ — подобрать сопряженное распределение и найти байесовскую оценку.
- \end{example}
- \begin{solution}
- Плотность выборки $p_t(x) = t^n e^{-t\sum X_i}$ — зависит от выборки, в том числе от ее размера, и связана с t.
- Выпишем плотность по $t$ пропорционально этому выражению, где вместо $n$ и $\sum X_i$ подставим новые параметры из $\mathcal{A}$.
- $$q(t) \propto t^{\beta - 1}e^{-\alpha t} \text{ — это распределение } \Gamma(\alpha, \beta).$$
- То есть $\mathcal{Q} = \{\Gamma(\alpha, \beta)\}$ — кандидат на сопряженное. Докажем, что $\mathcal{Q}$ — сопряженное к $\{Exp(\theta)\}$. Для этого найдем апостериорное распределение.
- $$q(t|x) = \propto q(t)p_t(x) \propto t^{\beta - 1}e^{-\alpha t} \cdot t^n \cdot e^{-t\sum X_i} = t^{\beta + n - 1} e^{-t(\alpha + \sum X_i)}.$$
- Это $\Gamma(\alpha + \sum X_i, \beta + n)$.
- Ответ: $"\theta | X" \sim \Gamma(\alpha + \sum X_i, \beta + n)$, $\hat{\theta}_1 = \mathbb{E}(\theta|X) = \dfrac{\beta + n}{\alpha + \sum X_i}$.
- \end{solution}
- \chapter{Глава 4. Непараметрический подход}
- \subsection{4.1. Эмпирическое распределение}
- Пусть $X_1, \ldots, X_n$ — выборка из распределения $P$, рассматриваем $\mathcal{P} = \{\text{все распределения на } \mathscr{X}\}$.
- \begin{definition}
- Эмпирическим распределением, построенном по выборке, называется вероятностная мера $\hat{P}_n$, определенная по правилу:
- $$\forall B \in \mathcal{B}_\mathscr{X}\;\; \hat{P}_n(B) = \dfrac{1}{n}\displaystyle{\sum_{i=1}^n}I\{X_i \in B\}.$$
- \end{definition}
- \textbf{Свойства:}
- \begin{enumerate}
- \item $\hat{P}_n(B)$ — случайная величина, равная доле элементов выборки, попавших в $B$.
- \item $\hat{P}_n$ — случайная дискретная вероятностная мера.
- \item $n\hat{P}_n(B) \sim Bin(n, P(B))$, $\mathbb{E}(\hat{P}_n)(B) = P(B)$, $D \hat{P}_n(B) = \dfrac{P(B)(1 - P(B))}{n}$.
- \item УЗБЧ: $\hat{P}_n(B) \xrightarrow{P\text{ - п.н.}} P(B)$.
- \end{enumerate}
- Рассмотрим случай $(\mathscr{X}, \mathscr{B}_\mathscr{X}) = (\mathbb{R}, \mathscr{B}(\mathbb{R}))$. В таком случае для $\hat{P}_n$ есть эмпирическая функция распределения.
- $$\hat{F}_n(x) = \hat{P}_n((-\infty, x]) = \dfrac{1}{n}\displaystyle{\sum_{i=1}^n}I\{X_i \leqslant x\}.$$
- \begin{proposition}
- $\hat{F}_n \xrightarrow{P \text{ - п.н.}} F(X)$.
- \end{proposition}
- \begin{theorem}[Гливенко-Кантелли]
- $$D_n = \displaystyle{\sup_{x \in \mathbb{R}}} |\hat{F}_n(x) - F(x)| \xrightarrow{P \text{ - п.н.}} 0.$$
- Заметим, что
- $$D_n = \displaystyle{\sup_{B \in \mathscr{A}}} |\hat{P}_n(B) - P(B)| \text{, где } \mathscr{A} = \{(-\infty, x]| x \in \mathbb{R}\}.$$
- \end{theorem}
- \begin{theorem}[Вапника-Червоненкиса]
- $\displaystyle{\sup_{B \in \mathscr{A}}} |\hat{P}_n(B) - P(B)| \xrightarrow{P \text{ - п.н.}} 0$ тогда и только тогда, когда конечна размерность Вапника-Червоненкиса при разбиении $\mathbb{R}^d$ множествами из $\mathscr{A}$.
- \end{theorem}
- \begin{theorem}[Колмогорова-Смирнова]
- $$\sqrt{n}D_n = \sqrt{n}\displaystyle{\sup_{x \in \mathbb{R}}} |\hat{F}_n(x) - F(x)| \xrightarrow{d} \xi,$$
- где $\xi$ имеет распределение Колмогорова:
- $$F_\xi(x) = \displaystyle{\sum_{k=-\infty}^{+\infty}}(-1)^k e^{-2k^2 x^2} I\{x \geqslant 0\}.$$
- \end{theorem}
- \subsection{4.2. Метод подстановки}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из распределения $P$ с функцией распределения $F$. Пусть $\theta = G(P)$ — функционал, значение которого нужно оценить.
- Тогда $\hat{\theta} = G(\hat{P}_n)$ — оценка $\theta$ по методу подстановки.
- \begin{example}
- $\;$
- \begin{enumerate}
- \item $\theta = G(P) = \displaystyle{\int\displaylimits_\mathscr{X}} f(x)dF(x) = \mathbb{E}_P f(X_1)$ — линейный функционал.
- $$G(aP_1 + bP_2) = aG(P_1) + bG(P_2)$$
- $$\hat{\theta} = G(\hat{P}_n) = \int\displaylimits_\mathscr{X} f(x)d\hat{F}_n(x) = \dfrac{1}{n}\displaystyle{\sum_{i=1}^n}f(X_i) = \overline{f(X)}.$$
- Если $f(x) = x$, то $\theta = \mathbb{E}_P X_1$ и $\hat{\theta} = \overline{X}$.
- \item $\theta = G(P) = D_P(X_1) = \displaystyle{\int\displaylimits_\mathscr{X}} x^2dF(x) - \left(\displaystyle{\int\displaylimits_\mathscr{X}} xdF(x)\right)^2$
- $\hat{\theta} = \overline{X^2} - \overline{X}^2$.
- \item $\theta = G(P) = \min\{x|F(x) \geqslant \alpha\}$ — $\alpha$-квантиль.
- $\hat{\theta} = G(\hat{P}_n) = \min\{x|\hat{F}_n(x) \geqslant \alpha\} = X_{(\lceil n\alpha \rceil)}$ — выборочная квантиль.
- \end{enumerate}
- \end{example}
- \begin{remark}
- Метод моментов — частный случай метода подстановки. (Какой функционал $G(P)$ взять?)
- \end{remark}
- \chapter{Глава 5. Гипотезы и критерии}
- \section{Лекция 10}
- Пусть $S$ — критерий для проверки $H_0$ vs. $H_1$.
- \begin{table}[h]
- \begin{tabular}{|l|l|l|}
- \hline
- & $H_0$ верна & $H_0$ не верна \\ \hline
- $H_0$ не отвергается & :) & Ошибка II рода:\newline $P(II_S) = \displaystyle{\sup_{P \in \mathscr{P}_1}} P(x \notin S)$ \\ \hline
- $H_0$ отвергается & Ошибка I рода:\newline $P(I_S) = \displaystyle{\sup_{P \in \mathscr{P}_0}} P(x \in S)$ & :) \\ \hline
- \end{tabular}
- \end{table}
- Минимизировать обе сразу не получится, поэтому решаем такую задачу:
- $$
- \begin{cases}
- P(I_S) \leqslant \alpha \\
- P(II_S) \rightarrow \displaystyle{\min_S}
- \end{cases}
- $$
- \begin{definition}
- $\alpha$ — уровень значимости критерия $S$, то есть число $\alpha \in (0, 1)$ называется уровнем значимости критерия $S$, если $P(I_S) \leqslant \alpha$.
- \end{definition}
- \begin{definition}
- Число $\alpha_0 = P(I_S)$ — реальный уровень значимости.
- \end{definition}
- Первая магическая константа статистики $\alpha = 0.05$.
- Как правило, альтернативная гипотеза сложная:
- $$H_0: \; \theta = \theta_0 \;\;\; H_1: \; \theta > \theta_0$$
- $$H_0: \; X_i \text{ имеет нормальное распределение} \;\;\; H_1: \; X_i \text{ имеет распр., отличающееся от норм.}$$
- \begin{definition}
- Для сравнения критериев определим \emph{мощность критерия $S$}:
- $$\beta_S(P) = P(X \in S), \text{ где } P \in \mathscr{P}_1$$
- \end{definition}
- \begin{example}
- $X \sim Exp(\theta)$ — выборка из одного наблюдения. $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta > \theta_0$.
- \end{example}
- \begin{solution}
- Заметим, что $\mathbb{E}_0 X = \dfrac{1}{\theta} \Rightarrow$ при больших $\theta$ стоит ожидать меньшее значение $X$. Логично взять критерий $S = \{x \in \mathscr{X} | x < c\}$, где $c$ подберем из условия: $$P(I_S) = P_{\theta_0}(X < c) = 1 - e^{-\theta_0 c} \leqslant \alpha \Rightarrow c \leqslant -\dfrac{1}{\theta_0}\ln (1-\alpha).$$
- Мощность критерия:
- $$\beta_S(\theta) = P_\theta(X < c) = 1 - e^{-\theta c} \rightarrow \max \text{ при } c \leqslant -\dfrac{1}{\theta_0}\ln (1-\alpha).$$
- Следовательно, получаем критерий $S = \{x \in \mathscr{X} | x < -\dfrac{1}{\theta_0} \ln(1-\alpha)\}$. $\beta_S(\theta) = 1$ и $\alpha = 0.05 \Rightarrow \ln(1 - \alpha) \approx -0.051$.
- Критерий: $S = \{x \in \mathscr{X} | x < 0.051\}$.
- Выводы:
- \begin{enumerate}
- \item $x < 0.051 \Rightarrow H_0$ отвергается. Результат статистически значим. $"x < 0.051"$ — статистическое доказательство против $H_0$.
- \item $x \geqslant 0.051 \Rightarrow H_0$ не отвергается. Результат статистически не значим.
- \end{enumerate}
- \end{solution}
- \subsection{5.2. Критерий Вальда}
- \begin{definition}
- Критерий $S$ называется \emph{асимптотическим критерием уровня значимости $\alpha$}, если
- $$\displaystyle{\lim_{n\to \infty}} \sup P(I_S) \leqslant \alpha.$$
- \end{definition}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из распределения $P \in \{P_\theta | \theta \in \Theta\}$, $\Theta \subset \mathbb{R}$. $\hat{\theta}$ — асимптотически нормальная оценка $\theta$ с асимптотической дисперсией $\sigma^2(\theta)$. $\hat(\sigma)$ — состоятельная оценка $\sigma(\theta)$.
- Рассмотрим гипотезы $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta \neq \theta_0$ и статистику $W(X) = \sqrt{n}\dfrac{\hat{\theta} - \theta_0}{\hat{\sigma}}$.
- При справедливости $H_0$ $W(X) \xrightarrow{d_{\theta_0}} \mathcal{N}(0, 1)$.
- $S = \{|W(X)| > z_{1 - \alpha/2}\}$.
- $$P(I_S) = P_{\theta_0}(|W| > z_{1-\alpha/2}) = P_{\theta_0}(W > z_{1-\alpha/2}) + P_{\theta_0}(W < - z_{1-\alpha/2}) \rightarrow$$
- $$\rightarrow 1 - \Phi(z_{1-\alpha/2}) + \Phi(-z_{1-\alpha/2}) = 1 - (1-\alpha/2) + \alpha/2 = \alpha.$$
- $$\beta_S(\theta) = P_\theta(|W| > z_{1-\alpha/2}) = P(W > z_{1-\alpha/2}) + P(W < -z_{1-\alpha/2}) =$$
- $$=P_\theta\left(\underbrace{\sqrt{n}\dfrac{\hat{\theta} - \theta}{\hat{\sigma}}}_{\xrightarrow{d_\theta} \mathcal{N}(0, 1)} > z_{1-\alpha/2} - \underbrace{\sqrt{n}\dfrac{\theta - \theta_0}{\hat{\sigma}}}_{w(\theta)}\right) + P_\theta\left(\underbrace{\sqrt{n}\dfrac{\hat{\theta} - \theta}{\hat{\sigma}}}_{\xrightarrow{d_\theta} \mathcal{N}(0, 1)} < - z_{1-\alpha/2} - \underbrace{\sqrt{n}\dfrac{\theta - \theta_0}{\hat{\sigma}}}_{w(\theta)}\right) \approx$$
- $$\approx 1 - \Phi(z_{1-\alpha/2} - w(\theta)) + \Phi(-z_{1-\alpha/2} - w(\theta)).$$
- Заметим, что при $|w(\theta)| \rightarrow +\infty$: $\beta_S(\theta) \rightarrow 1$.
- Вывод: мощность велика, если
- \begin{enumerate}
- \item выборка достаточно большая;
- \item $\theta$ далека от $\theta_0$.
- \end{enumerate}
- \begin{remark}
- $\;$
- \begin{enumerate}
- \item Критерий Вальда можно получить для случая односторонней альтернативы:
- \begin{itemize}
- \item $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta > \theta_0 \Rightarrow S_1 = \{W > z_{1-\alpha}\}$;
- \item $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta < \theta_0 \Rightarrow S_1 = \{W < z_{\alpha}\}$.
- \end{itemize}
- \item Если при односторонней альтернативе у $H_0$ поставить неравенство, ничего не изменится.
- \item Рассмотрим $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta \neq \theta_0$.
- $$P_\theta\left(\sqrt{n}\dfrac{\hat{\theta} - \theta}{\hat{\sigma}} < z_{1-\alpha/2}\right) \rightarrow 1 - \alpha \Rightarrow c = \left(\hat{\theta} \pm \dfrac{z_{1 -\alpha/2} \hat{\sigma}}{\sqrt{n}}\right).$$
- $H_0$ отвергается $\Leftrightarrow \theta_0 \notin c$.
- \end{enumerate}
- \end{remark}
- \begin{example}
- $X_1, \ldots, X_n \sim Cauchy(\theta)$. $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta \neq \theta_0$.
- \end{example}
- \begin{solution}
- $\hat{\mu}$ — а.н.о. $\theta$ с асимптотической дисперсией $\pi^2 / 4$.
- $$W(X) = \sqrt{n}\dfrac{\hat{\mu} - \theta_0}{\pi/2} \xrightarrow{d_{\theta_0}} \mathcal{N}(0, 1).$$
- Критерий $\{|W(X)| > z_{1-\alpha/2}\}$.
- $$z_{1-\alpha_2} = \text{sps.norm.ppf}(1 - \alpha/2).$$
- $$\beta_S(\theta) = \text{sps.norm.sf}(z_{1-\alpha_2} - w(\theta)) + \text{sps.norm.cdf}(-z_{1-\alpha_2} - w(\theta)).$$
- \end{solution}
- \subsection{5.3. Критерии отношения правдоподобия}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из неизвестного распределения $P \in \mathscr{P}$, где $\mathscr{P} = \{P_\theta|\theta \in \Theta\}$ — доминируемое семейство. $L_X(\theta) = \displaystyle{\prod_{i=1}^n p_\theta(X_i)}$ — функция правдоподобия.
- Гипотезы: $H_0$: $\theta \in \Theta_0$ vs. $H_1$: $\theta \in \Theta_1$, $\hat{\theta}_j$ — ОМП на множестве $\Theta_j$, $j \in \{0, 1\}$. Статистика отношения правдоподобия:
- $$\lambda(X) = 2\ln\left(\dfrac{L_X(\hat{\theta}_1)}{L_X(\hat{\theta}_0)}\right) = 2\ln\left(\dfrac{\displaystyle{\sup_{\theta \in \Theta_1}}L_X(\theta)}{\displaystyle{\sup_{\theta \in \Theta_0}}L_X(\theta)}\right)$$
- \begin{remark}
- На практике $\Theta \subset \mathbb{R}^D$ и $\Theta_0 \subset \Theta$, $\Theta_1 \subset \Theta \backslash \Theta_0$, $\dim \Theta_0 = d < D$, тогда $\hat{\theta}_1 = \hat{\theta}$ — глобальная ОМП на $\Theta$.
- $$\lambda(X) = 2\ln \dfrac{L_X(\hat{\theta})}{L_X(\hat{\theta}_0)}.$$
- \end{remark}
- \begin{theorem}
- Пусть $\Theta_0 = \{\theta \in \Theta_0| \theta_{d+1} = \theta_{d+1}^0, \ldots, \theta_{D} = \theta_{D}^0\}$. Тогда при справедливости $H_0$: $\theta \in \Theta_0$: $\lambda(X) \rightarrow \chi^2_{D-d}$.
- \end{theorem}
- \begin{example}
- $H_0$: $\theta_4 = \theta_5 = 0$. Тогда $\lambda(X) \rightarrow \chi^2_{5-3} = \chi^2_2$, $\Theta = \mathbb{R}^5$.
- \end{example}
- Критерий: $S = \{\lambda(X) > \chi^2_{D-d, 1-\alpha}\}$, $\alpha$ — уровень значимости, $\chi^2_{k,p}$ — $p$-квантиль $\chi^2_k$.
- В некоторых случаях статистика $\lambda(X)$ позволяет построить неасимптотический критерий, в точности решающий заданную задачу
- $$
- \begin{cases}
- P(I_S) \leqslant \alpha \\
- \beta_S(P) \rightarrow \displaystyle{\max_S} \forall P \in \mathscr{P}_1
- \end{cases}.
- $$
- \subsubsection{(1) Простые гипотезы: $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta = \theta_1$}
- Рассмотрим статистику $\Lambda = \dfrac{L_X(\theta_1)}{L_X(\theta_0)}$.
- \begin{theorem}[лемма Неймара-Пирсона]
- Если существует $C_\alpha$ такая, что $P_{\theta_0}(\Lambda(X) > C_\alpha) = \alpha$, то $S = \{\Lambda(X) > C_\alpha\}$ — критерий уровня значимости $\alpha$, который имеет максимальную мощность.
- \end{theorem}
- \subsubsection{(2) Сложные гипотезы}
- \begin{definition}
- Критерий $S$ уровня значимости $\alpha$ называется равномерно наиболее мощным критерием (РНМК), если для любого критерия $R$ уровня значимости $\alpha$: $\beta_S(P) \geqslant \beta_R(P)$ $\forall P \in \mathscr{P}_1$.
- \end{definition}
- \begin{theorem}[о монотонном отношении правдоподобия]
- Пусть при $\theta_1 > \theta_2$ отношение правдоподобия представимо в виде $\dfrac{L_X(\theta_1)}{L_X(\theta_2)} = f_{\theta_1,\theta_2}(T(X))$, где $T(X)$ — статистика, $f_{\theta_1,\theta_2}(t)$ возрастает по $t$.
- Тогда критерий $S = \{T(X) > C_\alpha\}$ — РНМК уровня значимости $\alpha$ для $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta > \theta_0$, где $C_\alpha$ подберем из условия $P_\theta(T(X) > C_\alpha) = \alpha$.
- \end{theorem}
- \begin{remark}
- $\;$
- \begin{enumerate}
- \item Пусть $\theta_1 > \theta_2 \Rightarrow \theta_1$ из альтернативы. $L_X(\theta_1) / L_X(\theta_2)$ возрастает при возрастании $T(X)$, следовательно, большие значение $T(X)$ более экстремальны.
- \item В дискретном случае берем $\alpha_0 < \alpha$, такое что $P_{\theta_0}(T(X) > C_\alpha) = \alpha_0$.
- \item Утверждение не изменится, если вместо $H_0$: $\theta = \theta_0$ поставить $H_0$: $\theta \leqslant \theta_0$.
- \item $H_0$: $\theta = \theta_0$ vs. $H_1$: $\theta < \theta_0 \Rightarrow S = \{T(X) < C_\alpha\}$.
- \item Если $f_{\theta_1, \theta_2}$ убывает, то меняем знак в $S$.
- \end{enumerate}
- \end{remark}
- \begin{example}
- $X_1, \ldots, X_n \sim Exp(\theta)$, $H_0$: $\theta \leqslant \theta_0$ vs. $H_1$: $\theta > \theta_0$.
- \end{example}
- \begin{solution}
- Рассчитываем отношение правдоподобия при $\theta_1 > \theta_2$:
- $$\dfrac{L_X(\theta_1)}{L_X(\theta_2)} = \dfrac{\theta_1^n e^{-\theta_1 \sum X_i}}{\theta_2^n e^{-\theta_2 \sum X_i}} = \left(\dfrac{\theta_1}{\theta_2}\right)e^{(\theta_2 - \theta_1)\sum X_i},$$
- то есть убывает по $T(X) = \sum X_i$. Тогда критерий $S = \{\sum X_i < C_\alpha\}$, где $C_\alpha$ подбираем из условия $P_{\theta_0}(\sum X_i < C_\alpha) = \alpha$.
- Заметим, что $\sum X_i \sim \Gamma(\theta, n) \Rightarrow C_\alpha$ — $\alpha$-квантиль $\Gamma(\theta_0, n)$.
- $$C_\alpha = \text{sps.gamma(a=n, scale=}1/\theta_0\text{).ppf}(\alpha),$$
- $$\beta_S(\theta) = \text{sps.gamma(a=n, scale=}1/\theta_0\text{).cdf}(C_\alpha).$$
- \end{solution}
- \chapter{Глава 7. Линейная регерессия}
- \section{Лекция 13 (от 25.11)}
- \subsection{7.2. Метод наименьших квадратов}
- Предполагается зависимость $y(x) = x^T\theta$, $\theta \in \mathbb{R}^d$.
- Наблюдения: $Y = X\theta + \varepsilon$, где $Y \in \mathbb{R}^n$, $X \in \mathbb{R}^{n\times d}$, $\theta \in \mathbb{R}^d$, $\varepsilon \in \mathbb{R}^n$. $Y$ случаен, у $X$ строки — объекты, столбцы — признаки, $\theta$ неизвстен, $\varepsilon$ случаен и неизвестен.
- $RSS(\theta) = \displaystyle{\sum_{i=1}^n} (y_i - x_i^T\theta)^2 = \Vert Y - X\theta \Vert^2$ — остаточная сумма квадратов.
- $\hat{\theta = \displaystyle{\argmin_{\theta \in \mathbb{R}^d}}} RSS(\theta)$ — МНК-оценка.
- \begin{proposition}
- Если $X^TX$ невырождена, то $$\hat{\theta} = (X^TX)^{-1}X^TY.$$
- \end{proposition}
- \begin{proof}
- $$RSS(\theta) = \Vert Y - X\theta \Vert^2 = (Y - X\theta)^T(Y - X\theta) = $$
- $$ = Y^TY - \underbrace{Y^T X \theta}_{=} - \underbrace{\theta^T X^T Y}_{=} + \theta^TX^TX\theta$$
- $$\dfrac{\partial RSS(\theta)}{\partial \theta} = -2X^T Y + 2X^T X \theta = 0 \Rightarrow \hat{\theta} = (X^T X)^{-1}X^T Y.$$
- \end{proof}
- \textbf{Обучение:} $\hat{\theta} = (X^T X)^{-1}X^T Y$.
- Предсказание отклика на одном объекте $x$: $\hat{y}(x) = x^T\hat{\theta}$.
- \begin{theorem}
- Свойства:
- \begin{enumerate}
- \item $\mathbb{E}\varepsilon = 0 \Rightarrow \mathbb{E}\hat{\theta} = \theta$, $\mathbb{E}\hat{y}(x) = y(x)$.
- \item $\mathbb{D}\varepsilon = \sigma^2 I_n$, $\mathbb{E}\varepsilon = 0 \Rightarrow \mathbb{D}\hat{\theta} = \sigma^2(X^TX)^{-1}$, $\mathbb{D}\hat{y}(x) = \sigma^2x^T(X^TX)^{-1}x$.
- \end{enumerate}
- \end{theorem}
- \begin{proof}
- \begin{enumerate}
- \item $\mathbb{E}(\hat{\theta} = \mathbb{E}(X^T X)^{-1}X^T Y) = (X^T X)^{-1} X^T \mathbb{E}(X\theta + \varepsilon) = (X^T X)^{-1}X^T X \theta = \theta$.
- \item $\mathbb{D}\hat{\theta} = \mathbb{D}(X^T X)^{-1}X^T Y = (X^T X)^{-1} X^T \cdot \mathbb{D} Y \cdot X(X^T X)^{-1} = \sigma^2(X^T X)^{-1}X^T X (X^T X)^{-1} = \sigma(X^T X)^{-1}$.
- \end{enumerate}
- \end{proof}
- \begin{remark}
- Часто на практике матрица $X^T X$ вырождена или близка к вырожденной, следовательно, $\mathbb{D} \hat{\theta}$ очень большая.
- \end{remark}
- Пусть $\lambda_{\min}, \lambda_{\max}$ — минимальное и максимальное собственные числа матрицы $X^T X$. $$CI = \sqrt{\dfrac{\lambda_{\max}}{\lambda_{\min}}}$$ — индекс обусловленности.
- $CI > 30$ — плохо.
- \textbf{Геометрический смысл МНК:}
- $L(X) = \{X\theta | \theta \in \mathbb{R}^d\}$ — пространство, порожденное столбцами матрицы $X \Rightarrow X\hat{\theta} = \operatorname{proj}_{L(X)} Y$.
- \begin{proposition}
- \underline{Оценка на $\sigma$:}
- \begin{itemize}
- \item $\hat{\varepsilon}_i = y_i - x_i^T\hat{\theta}$ — остатки модели,
- \item $\Vert \hat{\varepsilon}\Vert = RSS(\hat{\theta})$,
- \item $\hat{\sigma}^2 = \dfrac{RSS(\hat{\theta})}{n-d}$ — несмещенная оценка $\sigma^2$, если $\mathbb{E}\varepsilon = 0$, $\mathbb{D} \varepsilon = \sigma^2 I_n$.
- \end{itemize}
- \end{proposition}
- \begin{proof}
- $$\mathbb{E}RSS(\hat{\theta}) = \displaystyle{\sum_{i=1}^n} \mathbb{E} (y_i - x_i^T\hat{\theta})^2 = / \mathbb{E}y_i = x_i^T \theta, \; \mathbb{E} x_i^T \hat{\theta} = x_i^T\theta / = \displaystyle{\sum_{i=1}^n} \mathbb{D}(y_i - x_i^T\hat{\theta})= \Tr \mathbb{D}(Y - X\hat{\theta})$$.
- $$\mathbb{D} (Y - X\hat{\theta}) = \mathbb{D} (Y - X(X^T X)^{-1}X^T Y) = \mathbb{D}((I_n - \underbrace{X(X^T X)^{-1}X^T}_A)Y) = $$
- $$= (I_n - A)\cdot\mathbb{D}Y \cdot (I_n - A)^T = \sigma^2(I_n - 2A + AA^T) = \sigma^2(I_n - a), $$
- так как $AA^T = X(X^T X)^{-1} X^T X (X^T X)^{-1} X^T = X(X^T X)^{-1} X^T = A$.
- $$\mathbb{E} RSS(\hat{\theta}) = \Tr(\sigma^2 (I_n - A)) = \sigma^2(\Tr I_n - \Tr A) = \sigma^2(n - \Tr (X(X^T X)^{-1}X^T)) =$$
- $$= \sigma^2(n - \Tr(X^T X(X^T X)^{-1})) = \sigma^2(n - \Tr I_d) = \sigma^2(n - d).$$
- \end{proof}
- \subsection{7.3. Гауссовская линейная модель}
- Предполагается модель $Y = X\theta + \varepsilon$, где $\varepsilon \sim \mathcal{N}(0, \sigma I_n)$ — нормальность, несмещенность, гомоскедастичность.
- \begin{proposition}
- $\;$
- \begin{enumerate}
- \item $\hat{\theta}$ и $Y - X\hat{\theta}$ независимы.
- \item $\dfrac{1}{\sigma^2}\Vert X\hat{\theta} - X\theta \Vert^2 \sim \chi^2_d$, $\dfrac{1}{\sigma^2}\Vert Y - X\hat{\theta}\Vert^2 \sim \chi^2_{n-d}$.
- \end{enumerate}
- \end{proposition}
- \begin{proof}
- $\varepsilon \sim \mathcal{N}(0, \sigma^2 I_n) \Rightarrow \hat{\theta} \sim \mathcal{N}(\theta, \sigma^2(X^T X)^{-1})$ — потом и $Y \sim \mathcal{N}(X\theta, \sigma^2 I_n)$.
- $L(X) = \{X\theta | \theta \in \mathbb{R}^d\}$. Разбиение $\mathbb{R}^n = L(X) \oplus L^\bot (X)$.
- $\operatorname{proj}_{L^\bot(X)} Y = Y - X\hat{\theta}$.
- По теореме о разложении гауссовского вектора $X\hat{\theta}$ и $Y - X\hat{\theta}$ независимы.
- \begin{enumerate}
- \item $\hat{\theta} = (X^T X)^{-1} X^T X \hat{\theta} = [(X^T X)^{-1} X^T] \cdot X\hat{\theta} \Rightarrow \hat{\theta}$ — линейная комбинация $X\hat{\theta} \Rightarrow \hat{\theta}$ независима с $Y - X\hat{\theta}$.
- \item $$\dfrac{1}{\sigma^2}\Vert X\hat{\theta} - \mathbb{E} X\hat{\theta} \Vert^2 = \dfrac{1}{\sigma^2}\Vert X\hat{\theta} - X\theta \Vert^2 \sim \chi^2_d, \; d = \dim L(X)$$
- $$\dfrac{1}{\sigma^2}\Vert Y - X\hat{\theta} - \underbrace{\mathbb{E}(Y - X\hat{\theta})}_{=0} \Vert^2 = \dfrac{1}{\sigma^2}\Vert Y - X\hat{\theta} \Vert^2 \sim \chi^2_{n-d}.$$
- \end{enumerate}
- \end{proof}
- \subsubsection{1. Доверительный интервал на $\sigma$}
- $\hat{\sigma}^2 = \dfrac{RSS(\hat(\theta))}{n - d} = \dfrac{\Vert Y - X\hat{\theta} \Vert^2}{n-d}$ — несмещенная оценка.
- $\underbrace{\dfrac{\hat{\sigma}^2(n-d)}{\sigma^2}}_{\text{центральная функция}} \sim \chi^2_{n-d}$ по утверждению.
- $P\left(\dfrac{\hat{\sigma} (n-d)}{\sigma^2} > \chi^2_{n-d, \alpha}\right) = 1 - \alpha$.
- Интервал: $\left(0, \dfrac{\hat{\sigma^2(n-d)}}{\chi^2_{n-d, \alpha}}\right)$.
- \subsubsection{2. Доверительный интервал для $\theta_j$ и гипотезы $H_0$: $\theta_j = 0$}
- \begin{proposition}
- $$\forall c \in \mathbb{R}^n \rightarrow T(X, Y) = \dfrac{c^T(\hat{\theta} - \theta)}{\hat{\sigma}\sqrt{c^T(X^T X)^{-1}c}} \sim T_{n-d}.$$
- \end{proposition}
- \begin{proof}
- $$\hat{\theta} \sim \mathcal{N}(\theta, \sigma^2(X^T X)^{-1}).$$
- $$\dfrac{c^T(\hat{\theta} - \theta)}{\sigma\sqrt{c^T (X^T X)^{-1}c}} \sim \mathcal{N}(0, 1)$$
- — зависит только от $\hat{\theta} \Rightarrow$ назвисима с $Y - X\hat{\theta}$, то есть и с $\hat{\sigma}^2$.
- $$T(X, Y) = \dfrac{c^T(\hat{\theta} - \theta)}{\sigma\sqrt{c^T(X^T X)^{-1}c}} \dfrac{1}{\sqrt{\dfrac{\hat{\sigma}^2(n-d)}{\sigma^2}/(n-d)}}\sim T_{n-d}.$$
- \end{proof}
- Возьмем $c = (0, \ldots, \underbrace{1}_{j} \ldots, 0)^T$. Тогда
- $$T_j(X, Y) = \dfrac{\hat{\theta}_j - \theta_j}{\hat{\sigma\sqrt{(X^T X)^{-1}_{jj}}}} \sim T_{n-d}.$$
- \begin{enumerate}
- \item $P(|T_j(X, Y)| < T_{n-d, 1-\alpha/2}) = 1 - \alpha \Rightarrow (\hat{\theta}_j \pm \hat{\sigma}^2\sqrt{(X^T X)^{-1}_{jj}}\cdot T_{n-d,1-\alpha/2})$ — довиретильный интервал для $\theta_j$.
- \item $H_0$: $\theta_j = 0$ — гипотеза о незначимости коэффициента. При справедливости $H_0$:
- $$T_j^0(X, Y) = \dfrac{\hat{\theta}_j}{\hat{\sigma}^2\sqrt{(X^T X)^{-1}_{jj}}} \sim T_{n-d}.$$
- Критерий: $S =\{|T_j^0(X, Y)| > T_{n-d,1-\alpha/2}\}$.
- \end{enumerate}
- \subsubsection{3. Доверительная область для $\theta$}
- \begin{definition}
- Пусть $\xi \sim \chi^2_{k_1}$, $\eta \sim \chi^2_{k_2}$ — независимы, тогда случайная величина $\zeta = \dfrac{\xi k_2}{\eta k_1}$ имеет \emph{распределение Фишера с $k_1$, $k_2$ степенями свободы}. Обозначение $F_{k_1, k_2}$.
- \end{definition}
- Используем утверждение из начала 7.3:
- $$F(X, Y) = \dfrac{\dfrac{1}{\sigma^2}\Vert X\hat{\theta} - X\theta\Vert^2}{\dfrac{1}{\sigma^2}\Vert Y - X\theta\Vert^2} \cdot \dfrac{n-d}{d} \sim F_{d, n-d}.$$
- Доверительная область: $\{\theta \in \mathbb{R}^d | F(X, Y) \leqslant F_{d, n-d, 1-\alpha}\}$.
- \subsubsection{4. Общий случай линейных гипотез}
- Линейная гипотеза: $H_0: T\theta = \tau$, где $T \in \mathbb{R}^{k\times d}$, $\tau \in \mathbb{R}^k$, $k \leqslant d$, $\rg T = k$.
- \begin{example}
- Пусть $
- H_0:
- \begin{cases}
- \theta_1 = 0 \\
- \theta_2 = \theta_3
- \end{cases}
- $, $T = \begin{pmatrix}
- 1 & 0 & 0 & 0 & \ldots \\
- 0 & 1 & -1 & 0 & \ldots
- \end{pmatrix}$, $\tau = \begin{pmatrix}
- 0 \\
- 0
- \end{pmatrix}$.
- $\hat{\theta} \sim \mathcal{N}(\theta, \sigma^2(X^T X)^{-1})$. Обозначим $\hat{t} = T\hat{\theta} \sim \mathcal{N}(\underbrace{T\theta}_{=\tau \text{ при } H_0}, \sigma^2\underbrace{T(X^T X)^{-1} T^T}_{=B})$.
- Тогда при справедливости $H_0$:
- $$\dfrac{1}{\sigma}B^{-1/2}(\hat{t} - \tau) \sim \mathcal{N}(0, I_k).$$
- Возьмем скалярный квадрат:
- $$\dfrac{1}{\sigma^2}(\hat{t} - \tau)^T B^{-1}(\hat{t} - \tau) \stackrel{H_0}{\sim} \chi^2_k \Rightarrow$$
- $$/ \text{по утверждению из начала 7.3: } \dfrac{1}{\sigma^2}\Vert Y - X\hat{\theta}\Vert^2 \sim \chi^2_{n-d}/$$
- $$\Rightarrow \text{зависит только от }\hat{\theta} \text{ и не зависит от }Y - X\hat{\theta}.$$
- $$F(X, Y) = \dfrac{(\hat{t} - \tau)^TB^{-1}(\hat{t} - \tau)}{\Vert Y - X\hat{\theta} \Vert^2} \cdot \dfrac{n-d}{l} \stackrel{H_0}{\sim} F_{k, n-d}.$$
- Критерий $S = \{F(X, Y) > F_{k, n-d, 1-\alpha}\}$ — $F$-критерий.
- \end{example}
- \chapter{Глава 8. Теория наилучших оценок}
- \section{Лекция 14 (от 2.12)}
- \subsection{8.1. Информация и расстояния}
- \subsubsection{1. Вклад и информация Фишера}
- Пусть $X = (X_1, \dots, X_n)$ --- выборка из неизвестного распределения $P \in \mathcal{P} = \{P_\theta|\ \theta \in \Theta\}$,
- $\mathcal{P}$ --- доминируемое семейство распределений с плотностью $p_\theta(x)$.
- \begin{itemize}
- \item $L_X(\theta) = \displaystyle{\prod_{i=1}^np_\theta(X_i)}$ --- функция правдоподобия.
- \item $l_X(\theta) = \displaystyle{\sum_{i=11}^n\ln{p_\theta(X_i)}}$ --- логарифмическая функция правдоподобия.
- \end{itemize}
- \begin{definition}
- $u_X(\theta) = \dfrac{\partial}{\partial\theta}l_X(\theta)$ --- \emph{вклад выборки $X$ в параметр $\theta$.}
- \end{definition}
- \begin{definition}
- $I_X(\theta) = D_\theta u_X(\theta)$ --- \emph{информация Фишера, содержащаяся в выборке $X$ о параметре $\theta$.}
- \end{definition}
- \begin{example}
- $X_1, \dots, X_n \sim Bern(\theta)$
- $L_X(\theta) = \theta^{\sum X_i}(1 - \theta)^{n - \sum X_i}.$
- $l_x(\theta) = \sum X_i \cdot \ln{\theta} + (n - \sum X_i)\ln{(1 - \theta)}.$
- $u_X(\theta) = \dfrac{\partial}{\partial\theta}l_X(\theta) = \dfrac{\sum X_i}{\theta} - \dfrac{n - \sum X_i}{1 - \theta} = \dfrac{(1 - \theta)\sum X_i - \theta(n - \sum X_i)}{\theta(1 - \theta)} = \dfrac{\sum X_i - n\theta}{\theta(1 - \theta)}.$
- $I_X(\theta) = D_\theta u_X(\theta) = \dfrac{1}{\theta^2(1 - \theta)^2}D_\theta \sum X_i = \dfrac{n\theta(1 - \theta)}{\theta^2(1 - \theta)^2} = \dfrac{n}{\theta (1 - \theta)}.$
- \end{example}
- \begin{proposition}
- В условиях E1-E4 (см. условия регулярности)
- \begin{enumerate}
- \item $E_\theta u_X(\theta) = 0;$
- \item $I_X(\theta) = E_\theta u_X^2(\theta);$
- \item $I_X(\theta) = ni(\theta)$, где $i(\theta) = I_{X_1}(\theta)$ (информация одного наблюдения);
- \item $I_X(\theta) = -E_\theta\dfrac{\partial^2l_X(\theta)}{\partial\theta^2}.$
- \end{enumerate}
- \end{proposition}
- \begin{proof}
- \begin{enumerate}
- \item $u_X(\theta) = \dfrac{\partial}{\partial\theta}l_X(\theta) = \dfrac{\partial}{\partial\theta}\displaystyle{\sum_{i=1}^n \ln{p_\theta(X_i)}} = \displaystyle{\sum_{i=1}^n \dfrac{\partial\ln{p_\theta(X_i)}}{\partial\theta}} = \displaystyle{\sum_{i=1}^n u_{X_i}(\theta)}$
- Посчитаем матожидание: $E_\theta u_{X_1}(\theta) = E_\theta \dfrac{\partial \ln{p_\theta(X_1)}}{\partial\theta}
- = \int\limits_\mathscr{X} \dfrac{\partial \ln{p_\theta(x)}}{\partial\theta} p_\theta(x)dx = \int\limits_\mathscr{X} \dfrac{\frac{\partial p_\theta(x)}{\partial\theta}}{p_\theta(x)} p_\theta(x)dx
- = \int\limits_\mathscr{X} \dfrac{\partial p_\theta(x)}{\partial\theta}dx \stackrel{E3}{=} \dfrac{\partial}{\partial\theta}\int\limits_\mathscr{X}p_\theta(x)dx
- = \dfrac{\partial(1)}{\partial\theta} = 0.$
- \item очевидным образом следует из п. 1.
- \item $I_X(\theta) = D_\theta u_X(\theta) = D_\theta \sum u_{X_i}(\theta) \stackrel{н.о.р.с.в}{=} \sum D_\theta u_{X_i}(\theta) = ni(\theta).$
- \item $\dfrac{\partial^2 \ln p_\theta(x)}{\partial\theta^2} = \dfrac{\partial}{\partial\theta}\left(\dfrac{\frac{\partial p_\theta(x)}{\partial\theta}}{p_\theta(x)}\right) = \dfrac{\frac{\partial^2p_\theta(x)}{\partial\theta^2}}{p_\theta(x)} - \dfrac{(\frac{\partial p_\theta(x)}{\partial \theta})^2}{p_\theta^2(x)}$
- $E_\theta \dfrac{\partial^2 \ln p_\theta(X)}{\partial\theta^2} = E_\theta \dfrac{\frac{\partial^2p_\theta(X)}{\partial\theta^2}}{p_\theta(X)} - \underbrace{E_\theta\left(\dfrac{\frac{\partial p_\theta(X)}{\partial \theta}}{p_\theta(X)} \right)^2}_{=I_X(\theta)}.$
- Покажем, что первое слагаемое равно нулю:
- $E_\theta \dfrac{\frac{\partial^2p_\theta(X)}{\partial\theta^2}}{p_\theta(X)} = \int\limits_\mathscr{X} \dfrac{\frac{\partial^2p_\theta(x)}{\partial\theta^2}}{p_\theta(x)}p_\theta(x)dx = \int\limits_\mathscr{X}\dfrac{\partial^2p_\theta(x)}{\partial\theta^2}dx = \dfrac{\partial^2}{\partial\theta^2} \int\limits_\mathscr{X}p_\theta(x)dx = 0$
- \end{enumerate}
- \end{proof}
- \subsubsection{2. Энтропия в дискретном случае}
- Пусть $P$ --- распределение на $\{a_1, \dots a_k\}$ с вероятностями $p_1, \dots, p_k$.
- \begin{definition}
- $H(P) = -\displaystyle{\sum_{j=1}^k p_j\log p_j}$ --- \emph{энтропия} (считаем, что $0\cdot\log 0 = 0$).
- \end{definition}
- \textbf{Свойства:}
- \begin{enumerate}
- \item $H(P) \geqslant 0, \ H(P) = 0 \iff \exists j: \ p_j = 1;$
- \item $H(P) \leqslant \log k, \ H(P) = \log k \iff \forall j \ p_j = 1/k.$
- \end{enumerate}
- \begin{proof}
- \begin{enumerate}
- \item $p_j \in [0, 1] \implies -\log p_j \geqslant 0.$
- \item $H(P) = -E\log p(\xi)$, где $\xi \sim P$.
- $H(P) = E \log\dfrac{1}{P(\xi)} \leqslant \text{| неравенство Йенсена |} \leqslant \log E\dfrac{1}{p(\xi)} = \log\displaystyle{\sum_{j=1}^k \dfrac{1}{p_j}p_j} = \log k.$
- \end{enumerate}
- \end{proof}
- \subsubsection{3. Общий случай}
- Пусть $P, Q$ --- распределения по одной и той же мере (либо оба дискретные, либо оба абсолютно непрерывные) с плотностями $p(x)$ и $q(x)$ соответственно.
- \begin{definition}
- \begin{enumerate}
- \item $H(P) = -E\log p(\xi)$, где $\xi \sim P$ --- \emph{энтропия};
- \item $H(P, Q) = -E\log q(\xi)$, где $\xi \sim P$ --- \emph{кросс-энтропия};
- \item $KL(P, Q) = E\log\dfrac{p(\xi)}{q(\xi)}$, где $\xi \sim P$ --- \emph{дивергенция Кульбака-Лейблера}.
- \end{enumerate}
- \end{definition}
- \begin{remark}
- В общем случае $H(P)$ может быть отрицательной:
- $P = U[0, 1/2], \ p(x) = 2I\{x \in [0, 1/2]\}$. Тогда $H(P) = -E\log(p(\xi)) = -E\log 2 = -\log 2$.
- \end{remark}
- \textbf{Свойства KL:}
- \begin{enumerate}
- \item $KL(P, Q) \geqslant 0;\ KL(P, Q) = 0 \iff P \stackrel{п. в.}{=} Q$
- \begin{proof}
- $-KL(P, Q) = E\log\dfrac{q(\xi)}{p(\xi)} \leqslant \text{| неравенство Йенсена |} \leqslant \log E\dfrac{q(\xi)}{p(\xi)} = \log \int\limits_\mathscr{X} \dfrac{q(x)}{p(x)}p(x)dx = \log\int\limits_\mathscr{X} q(x)dx = \log 1 = 0.$
- $-KL(P, Q) \leqslant 0 \iff KL(P, Q) \geqslant 0$, причем равенство в неравенстве Йенсена достигается тогда и только тогда, когда $P \stackrel{п.в.}{=} Q$.
- \end{proof}
- \item $KL(P, Q) \neq KL(Q, P)$
- \item Пусть $X = (X_1, \dots, X_n)$ --- выборка из дискретного распределения $P \in \{P_\theta | \ \theta \in \Theta\}$. Тогда
- $$KL(\hat{P}_n, P_\theta) = E_{\hat{P}_n} \log \dfrac{\hat{P}_n(X_i)}{P_\theta(X_i)} = \dfrac{1}{n}\sum_{i=1}^n\log{\dfrac{1/n}{p_\theta(X_i)}} = \underbrace{-\dfrac{1}{n}\sum_{i=1}^n \log p_\theta(X_i)}_{H(\hat{P}_n, P_\theta)} - \underbrace{\log n}_{H(\hat{P}_n)}.$$
- $KL(\hat{P}_n, P_\theta) \rightarrow \displaystyle{\min_\theta} \iff H(\hat{P}_n, P_\theta) \rightarrow \displaystyle{\min_\theta} \iff l_X(\theta) \rightarrow \displaystyle{\max_\theta}$, т.е. \textbf{ОМП}.
- \end{enumerate}
- \subsection{8.2. Свойства ОМП}
- \begin{theorem}[Экстремальное свойство правдоподобия (L1-L3)]
- $$\forall \theta_0, \theta_1 \in \Theta: \theta_0 \neq \theta_1 \ P_{\theta_0}(L_X(\theta_0) > L_X(\theta_1)) \xrightarrow{n \to \infty} 1.$$
- \end{theorem}
- \begin{proof}
- $L_X(\theta_0) > L_X(\theta_1) \iff \dfrac{1}{n} \log\dfrac{L_X(\theta_0)}{L_X(\theta_1)} > 0$
- $\dfrac{1}{n} \log\dfrac{L_X(\theta_0)}{L_X(\theta_1)} = \dfrac{1}{n}\displaystyle{\sum_{i=1}^n \log\dfrac{p_{\theta_0}(X_i)}{p_{\theta_1}(X_i)} } \stackrel{P_{\theta_0}\text{-п.н (УЗБЧ)}}{\rightarrow} E_{\theta_0} \log\dfrac{p_{\theta_0}(X_1)}{p_{\theta_1}(X_1)} = KL(P_{\theta_0}, P_{\theta_1}) > 0$,
- т.к. $\theta_0 \neq \theta_1$ и выполнены условия L1-L2.
- \end{proof}
- \begin{theorem}[Состоятельность ОМП (L1-L5)]
- С вероятностью $\to 1$ уравнение правдоподобия $\dfrac{\partial l_X(\theta)}{\partial\theta} = 0$ имеет решение $\tilde{\theta}$, причем $\tilde{\theta}$ --- состоятельная оценка $\theta$.
- \end{theorem}
- \begin{proof}
- Пусть $\theta_0$ --- истинное значение. Тогда по свойству L4 $\exists \varepsilon > 0: (\theta_0 - \varepsilon, \ \theta_0 + \varepsilon) \subset \Theta $. Из экстремального свойства правдоподобия получим, что
- \begin{equation}
- P_{\theta_0}(L_X(\theta_0) > L_X(\theta_0 + \varepsilon), L_X(\theta_0) > L_X(\theta_0 - \varepsilon)) \rightarrow 1.
- \label{eq_P}
- \end{equation}
- Тогда из~\eqref{eq_P} и условия L5 следует, что на $(\theta_0 - \varepsilon, \ \theta_0 + \varepsilon)$ имеется корень уравнения правдоподобия.
- Пусть $\tilde{\theta}$ --- ближайший к $\theta_0$ корень. Из~\eqref{eq_P} следует, что $P_{\theta_0}(|\tilde{\theta} - \theta_0| > \varepsilon) \rightarrow 0$. В силу произвольности $\varepsilon$ $\tilde{\theta}$ --- состоятельная оценка $\theta$.
- \end{proof}
- \begin{corollary}
- Если $\forall n \ \forall X_1, \dots, X_n$ есть ровно одно решение уравнения правдоподобия $\tilde{\theta}$, то $\tilde{\theta}$ --- состоятельная оценка $\theta$
- и $P_{\theta_0}(\tilde{\theta} = \hat{\theta}_{ОМП}) \rightarrow 1$ и тогда ОМП также состоятельна.
- \end{corollary}
- \begin{theorem}[Асимптотическая нормальность ОМП (L1-L9), б/д]
- $\;$
- \begin{enumerate}
- \item Пусть $\tilde{\theta}$ --- решение уравнения правдоподобия, т.ч. $\tilde{\theta}$ --- состоятельная оценка $\theta$.
- Тогда $\tilde{\theta}$ --- а.н.о. $\theta$ с асимптотической дисперсией $\frac{1}{i(\theta)}$.
- \item Пусть $\hat{\theta}$ --- произвольная а.н.о. с асимптотической дисперсией $\sigma^2(\theta)$, т. ч. $\sigma(\theta)$ непрерывна.
- Тогда $\sigma^2(\theta) \geqslant \dfrac{1}{i(\theta)}.$
- \end{enumerate}
- \end{theorem}
- \begin{corollary}
- $\;$
- \begin{enumerate}
- \item Если $\forall n \ \forall X_1, \dots, X_n$ есть ровно один корень, то он является а.н.о.
- \item ОМП асимптотически эффективная оценка (т.е. наилучшая среди всех а.н.о с непрерывной асимптотической дисперсией).
- \end{enumerate}
- \end{corollary}
- \begin{remark}
- Если L* не выполнено, то может быть еще круче!
- $X_1, \dots, X_n \sim U[0, \theta]; \; \hat{\theta} = X_{(n)}$ --- ОМП. Тогда
- $$n(\theta - X_{(n)}) \xrightarrow{d_\theta} Exp(1), $$
- т.е. скорость сходимости $\sim 1/n$.
- \end{remark}
- \subsection{8.3. Эффективные оценки}
- Пусть $X_1, \dots, X_n$ --- выборка из доминируемого семейства $P \in \{P_\theta | \ \theta \in \Theta \}$ с плотностью $p_\theta(x)$ и $\Theta \subset \mathbb{R}$.
- Рассмотрим семейство $\mathcal{K} = \{\text{все несмещенные оценки }\tau(\theta)\}$.
- \textbf{Задача:} Найти наилучшую в с/к подходе оценку, т.е. нужно минимизировать $MSE_{\hat{\theta}}(\theta) = D_\theta \hat{\theta}$ по всем $\theta$ сразу
- (такие оценки называются \emph{оптимальными} в $\mathcal{K}$).
- \begin{theorem}[Неравенство Рао-Крамера (E1-E4)]
- Для любой оценки из $\mathcal{K}$
- $$ D_\theta \hat{\theta} \geqslant \dfrac{(\tau'(\theta))^2}{I_X(\theta)} \forall \theta \in \Theta. $$
- \end{theorem}
- \begin{proof}
- $\tau'(\theta) = \dfrac{\partial}{\partial\theta} \mathbb{E}_\theta \hat{\theta} = \dfrac{\partial}{\partial\theta} \displaystyle{\int\limits_{\mathscr{X}}} \hat{\theta}(x)p_\theta(x)dx = \int\limits_{\mathscr{X}} \hat{\theta}(x)\dfrac{\partial p_\theta(x)}{\partial\theta}dx = \int\limits_{\mathscr{X}} \hat{\theta}(x)\dfrac{\partial \ln p_\theta(x)}{\partial\theta}p_\theta(x) dx = \int\limits_{\mathscr{X}} \hat{\theta}(x)u_x(\theta)p_\theta(x)dx = \mathbb{E}_\theta\hat{\theta}u_X(\theta)$.
- $\mathbb{E}_\theta u_X(\theta) = 0 \Rightarrow \tau(\theta) = \mathbb{E}_\theta (\hat{\theta} - \tau(\theta))u_X(\theta)$.
- Применим неравенство Коши-Буняковского:
- $(\tau'(\theta))^2 \leqslant \underbrace{\mathbb{E}_\theta(\hat{\theta} - \tau(\theta))^2}_{\mathbb{D}_\theta \hat{\theta}} \underbrace{\mathbb{E}_\theta u_X^2(\theta)}_{I_X(\theta)} \implies D_\theta \hat{\theta} \geqslant \dfrac{(\tau'(\theta))^2}{I_X(\theta)}.$
- \end{proof}
- \begin{theorem}(Критерий эффективности)
- $\;$
- $\hat{\theta}$ --- эффективная оценка $\tau(\theta) \iff \hat{\theta}$ --- линейная функция от вклада, т.е.
- $$\hat{\theta} - \tau(\theta) = c(\theta)u_X(\theta), $$
- где $c(\theta) = \dfrac{\tau'(\theta)}{I_X(\theta)}$ --- линейная по $X$ функция при фиксированном $\theta$.
- \end{theorem}
- \begin{proof}
- Равенство в неравенстве Коши-Буняковского достигается, когда величины линейно зависимы, т.е.
- $$\hat{\theta} - \tau(\theta) = c(\theta)u_X(\theta) + a(\theta).$$
- \begin{enumerate}
- \item $\underbrace{\mathbb{E}_\theta(\hat{\theta} - \tau(\theta))}_{0} = \underbrace{\mathbb{E}_\theta c(\theta)u_X(\theta)}_{0} + \underbrace{\mathbb{E}_\theta a(\theta)}_{a(\theta)} \implies a(\theta) \equiv 0$
- \item Домножим на $u_X(\theta)$ и возьмем матожидание:
- $$E_\theta(\hat{\theta} - \tau(\theta))u_X(\theta) = c(\theta)\mathbb{E}_\theta u_X^2(\theta) = c(\theta)I_X(\theta) = \tau'(\theta) \implies c(\theta) = \dfrac{\tau'(\theta)}{I_X(\theta)}.$$
- \end{enumerate}
- \end{proof}
- \section{Лекция 15}
- \subsection{8.4. Оптимальные оценки}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из распределения $P \in \mathscr{P} = \{P_\theta | \theta \in \Theta\}$.
- $\mathcal{K} = \{\text{все несмещенные оценки параметра }\theta\}$.
- \begin{definition}
- Оценка $\hat{\theta} \in \mathcal{K}$, которая для всех $\theta \in \Theta$ дает минимум величины
- $$MSE_{\hat{\theta}}(\theta) = \mathbb{E}(\hat{\theta} - \theta)^2 = \mathbb{D}_{\theta}\hat{\theta}$$
- называется \emph{оптимальной}.
- \end{definition}
- \begin{theorem}[Колмогорова-Блекуэлла-Рао]
- Пусть $\hat{\theta}$ — несмещенная оценка $\tau(\theta)$, причем $\mathbb{E}_\theta \hat{\theta}^2 < +\infty$; $S(X)$ — достаточная статистика. Тогда
- \begin{enumerate}
- \item $\theta^* = \mathbb{E}_\theta (\hat{\theta} | S(X))$ тоже является несмещенной оценкой $\tau(\theta)$.
- \item $\mathbb{D}_\theta \theta^* \leqslant \mathbb{D}_\theta \hat{\theta}$ $\forall \theta \in \Theta$
- Равенство возможно $\Leftrightarrow$ $\theta^* = \hat{\theta}$ - $P_\theta$-п.н. $\forall \theta \in \Theta$, то есть $\hat{\theta}$ изначально является $S(X)$-измеримой.
- \end{enumerate}
- \end{theorem}
- \begin{proof}
- $\;$
- \begin{enumerate}
- \item $S(X)$ — достаточная, следовательно, $P_\theta(X \in B | S(X))$ не зависит от $\theta$, значит $\mathbb{E}_\theta(\hat{\theta}|S(X))$ тоже не зависит от $\theta$ (как матожидание условного распределения), поэтому $\theta^*$ — действительно оценка.
- $$\mathbb{E}_\theta(\mathbb{E}_\theta)(\hat{\theta}|S(X)) = \mathbb{E}_\theta \hat{\theta} = \tau(\theta) \Rightarrow \theta^* \text{ — несмещенная оценка }\tau(\theta)$$.
- \item (для $\tau(\theta) \in \mathbb{R}$):
- $$\mathbb{D}_\theta \hat{\theta} = \mathbb{E}_\theta(\hat{\theta} - \tau(\theta))^2 = \mathbb{E}_\theta(\hat{\theta} - \theta^* + \theta^*-\tau(\theta))^2 = \underbrace{\mathbb{E}_\theta(\hat{\theta} - \theta^*)^2}_{\geqslant 0} + \mathbb{D}_\theta \theta^* + 2\underbrace{\mathbb{E}_\theta(\hat{\theta} - \theta^*)(\theta^* - \tau(\theta))}_{=0} \geqslant \mathbb{D}_\theta \theta^*.$$
- $$\mathbb{E}_\theta(\hat{\theta} - \theta^*)(\theta^* - \tau(\theta)) = E_\theta(\mathbb{E}_\theta((\hat{\theta} - \theta^*)(\theta^* - \tau(\theta))|S(X)))=$$
- $$ = E_\theta((\theta^* - \tau(\theta))\mathbb{E}_\theta(\hat{\theta} - \theta^*|S(X))) = \mathbb{E}_\theta((\theta^* - \tau(\theta))\cdot 0) = 0.$$
- Равенство возможно $\Leftrightarrow \mathbb{E}_\theta(\hat{\theta} - \theta^*)^2 = 0 \forall \theta \in \Theta\Leftrightarrow \hat{\theta} = \theta^* \;\; P_\theta\text{-п.н.}\;\;\forall\theta\in\Theta\Leftrightarrow$
- $\Leftrightarrow \hat{\theta} = \mathbb{E}_\theta (\hat{\theta}|S(X))\;\;P_\theta\text{-п.н.}\;\;\forall\theta\in\Theta \Leftrightarrow \hat{\theta}$ является $S(X)$-измеримой.
- \end{enumerate}
- \end{proof}
- \begin{corollary}
- $\;$
- \begin{enumerate}
- \item $\theta^*$ не хуже $\hat{\theta}$ в среднеквадратичном подходе;
- \item Если $\hat{\theta}$ не является $S(X)$-измеримой, то $\theta^*$ лучше в средневадратичном подходе;
- \item Если $\theta^*$ — \textbf{единственная} несмещенная $S(X)$-измеримая оценка $\tau(\theta)$, то она и является оптимальной.
- \end{enumerate}
- \end{corollary}
- \begin{proof}
- Если есть не $S(X)$ измеримая оценка, то возьмем УМО, получим лучше и $S(X)$-измеримую и несмещенную, а она одна. Противоречие.
- \end{proof}
- Единственность гарантирует свойство полноты.
- \begin{definition}
- Статистика $S(X)$ называется \emph{полной}, если для семейства распределений $\{P_\theta|\theta \in \Theta\}$, если выполнение свойства $\forall \theta \in \Theta\;\; \mathbb{E}_\theta f(S(X)) = 0$ возможно только в случае $\forall \theta \in \Theta \;\; f(S(X)) \stackrel{P_\theta \text{-п.н.}}{=} 0$.
- \end{definition}
- \begin{sense}
- несмещенной $S(X)$-измеримой оценкой нуля может быть только ноль.
- \end{sense}
- \begin{theorem}[об оптимальной оценке]
- Пусть $S(X)$ — полная и достаточная статистика для $\{P_\theta|\theta \in \Theta\}$. Оценка $\theta^* = \varphi(S(X))$ — несмещенная $S(X)$-измеримая оценка $\tau(\theta)$. Тогда $\theta^*$ — оптимальная оценка $\tau(\theta)$.
- \end{theorem}
- \begin{proof}
- Согласно предыдущему следствию достаточно проверить, что $\theta^*$ — единственная несмещенная $S(X)$-измеримая оценка $\tau(\theta)$.
- Пусть $\psi(S(X))$ — тоже несмещенная оценка $\tau(\theta)$. Обозначим $f(x) = \varphi(x) - \psi(x)$. Тогда
- $$\mathbb{E}_\theta f(S(X)) = \mathbb{E}_\theta \varphi(S(X)) - \mathbb{E}_\theta \psi(S(X)) = 0 \;\; \forall \theta \in \Theta.$$
- Но $S(X)$ — полная, следовательно, $P_\theta$-п.н. $\forall \theta \in \Theta \;\; f(S(X)) = 0 = \varphi(S(X)) - \psi(S(X))$.
- \end{proof}
- \begin{corollary}
- $S(X)$ — полная и достаточная статистика для $\{P_\theta | \theta \in \Theta\}$.
- \begin{enumerate}
- \item Если $\theta^*$ — несмещенная оценка $\tau(\theta)$, то $\mathbb{E}_\theta (\theta^* | S(X))$ — оптимальная оценка $\tau(\theta)$.
- \item Если $\theta^*_1$, $\theta^*_2$ — оптимальные оценки $\tau_1(\theta)$, $\tau_2(\theta)$, то $a\theta^*_1 + b\theta^*_2$ — оптимальная оценка $a\tau_1(\theta) + b\tau_2(\theta)$.
- \item Если $\tau(\theta) = (\tau_1(\theta), \ldots, \tau_k(\theta)) \in \mathbb{R}^k$ и $\theta^*_j$ — оптимальная оценка $\tau_j(\theta)$, то $\theta^* = (\theta^*_1, \ldots, \theta^*_k)$ — оптимальная оценка вектора $\tau(\theta)$.
- \end{enumerate}
- \end{corollary}
- \subsubsection{Алгоритм поиска оптимальных оценок}
- \begin{enumerate}
- \item Найти $S(X)$ — полную и достаточную статистику в данной модели;
- \item Решить уравнение несмещенности $\mathbb{E}_\theta \varphi(S(X)) = \tau(\theta)$ относительно $\varphi$. Оценка $\theta^* = \varphi(S(X))$ будет оптимальной согласно теореме об оптимальной оценке.
- \end{enumerate}
- \subsubsection{Оптимальные оценки в экспоненциальном семействе}
- Пусть $\mathscr{P} = \{P_\theta|\theta \in \Theta\}$, причем $p_\theta(x) = \dfrac{g(x)}{h(\theta)}e^{a(\theta)^Tu(x)}$.
- \begin{theorem}
- Если множетсво $\Theta$ телесно (то есть содержит все внутренние точки), а функция $a(\theta)$ непрерывна и содержит линейно независимые компоненты, то статистика $S(X) = \displaystyle{\sum_{i=1}^n}u(X_i)$ является полной и достаточной для семейства $\mathscr{P}$.
- \end{theorem}
- \subsubsection{Оптимальные оценки в гауссовской линейной модели}
- Гауссовская линейная модель $Y = X\theta + \varepsilon$, $\varepsilon \sim \mathcal{N}(0, \sigma^2 I_n)$.
- $L(X) = \{X\theta| \theta \in \mathbb{R}^d\}$.
- \begin{proposition}
- $S(Y) = (\proj_{L(X)} Y, \Vert \proj_{L^T(X)} Y \Vert^2)$ — достаточная статистика.
- \end{proposition}
- \begin{proof}
- Запишем плотность $Y \sim \mathcal{N}(X\theta, \sigma^2 I_n)$, $c = (2\pi\sigma^2)^{-n/2}$:
- $$p(y) = c\cdot\exp\left(-\dfrac{1}{2\sigma^2}\sum (Y_i - x_i^T \theta)^2\right) = c\cdot\exp\left(-\dfrac{1}{2\sigma^2}\Vert Y - X\theta \Vert^2\right)=$$
- $$=c \cdot \exp\left(-\dfrac{1}{2\sigma^2}\left(\Vert \proj_{L(X)} (Y - X\theta) \Vert^2 + \Vert \proj_{L^T(X)} (Y - X\theta) \Vert^2\right)\right) =$$
- $$= c \cdot \exp\left(-\dfrac{1}{2\sigma^2}\left(\Vert \proj_{L(X)} Y - X\theta\Vert^2 + \Vert \proj_{L^T(X)} Y\Vert^2\right)\right).$$
- \end{proof}
- \begin{proposition}
- $\;$
- \begin{enumerate}
- \item $S(Y)$ — полная статистика (б/д);
- \item $\hat{\theta} = (X^TX)^{-1}X^T Y$ — оптимальная оценка $\theta$;
- \item $\hat{\sigma}^2 = \dfrac{1}{n-d}\Vert Y - X\hat{\theta} \Vert^2$ — оптимальная оценка $\sigma^2$.
- \end{enumerate}
- \end{proposition}
- \begin{proof}
- Обе несмещенные и являются функциями от $S(Y)$.
- \end{proof}
- \begin{proposition}
- Если не предполагать нормальность ошибки, то $\hat{\theta}$ — наилучшая в среднеквадратичном подходе среди всех несмещенных оценок, линейных по $Y$.
- \end{proposition}
- \chapter{Глава 9. Доказательства теорем}
- \subsection{9.1. Теорема Гливенко-Кантелли}
- $X = (X_1, X_2, \ldots)$ — выборка из распределения $P$ с функцией распределения $F$. Тогда
- $$D_n = \displaystyle{\sup_{x \in \mathbb{R}}}|\hat{F}_n(x) - F(x)|\xrightarrow{P \text{ - п.н.}} 0.$$
- \begin{proof}
- Замечание: $D_n = \max(2n \text{ точек}) \Rightarrow D_n$ — случайная величина. Обозначим $u_p$ — $p$-квантиль распределения $P$. Выберем $N \in \mathbb{N}$, $k \in \{1, \ldots, N-1\}$. Пусть $x \in [u_{\frac{k}{N}}, u_{\frac{k+1}{N}})$. Тогда
- $$\hat{F}_n(x) - F(x) \leqslant \hat{F}_n(u_{\frac{k + 1}{N}} - 0) - F(u_{\frac{k}{N}}) = \hat{F}_n(u_{\frac{k + 1}{N}} - 0) - F(u_{\frac{k+1}{N}} - 0) + \underbrace{F(u_{\frac{k+1}{N}} - 0)}_{\leqslant \frac{k+1}{N}} - \underbrace{F(u_{\frac{k}{N}})}_{\geqslant k/N} \leqslant$$
- $$\leqslant \hat{F}_n(u_{\frac{k + 1}{N}} - 0) - F(u_{\frac{k + 1}{N}} - 0) + \dfrac{1}{N}.$$
- Аналогично, $\hat{F}_n(x) - F(x) \geqslant \hat{F}_n(u_{k/N}) - F(u_{k/N}) - \dfrac{1}{N}$.
- Пусть $x$ произвольный
- $$|\hat{F}_n(x) - F(x)| \leqslant \displaystyle{\max_{k \in \{1, \ldots, N-1\}}} \left\{\hat{F}_n\left(u_{\frac{k+1}{N}} - 0\right) - F\left(u_{\frac{k+1}{N}} - 0\right), \; \hat{F}_n\left(u_{\frac{k}{N}}\right) - F\left(u_{\frac{k}{N}}\right)\right\} + \dfrac{1}{N}.$$
- Правая часть не зависит от $x$, следовательно, слева ставим $\sup$.
- УЗБЧ: $\hat{F}_n\left(u_{\frac{k+1}{N}} - 0\right) \xrightarrow{P \text{ - п.н.}} F\left(u_{\frac{k+1}{N}} - 0\right)$; $\hat{F}_n\left(u_{\frac{k}{N}}\right) \xrightarrow{P \text{ - п.н.}} F\left(u_{\frac{k}{N}}\right)$.
- По теореме о наследовании сходимостей
- $$\displaystyle{\lim_{n\to \infty}} \sup \displaystyle{\sup_{x \in \mathbb{R}}} |\hat{F}_n(x) - F(x)| \leqslant \dfrac{1}{N},$$
- В силу произвольности $N$ существует $\displaystyle{\lim_{n\to \infty}}\displaystyle{\sup_{x \in \mathbb{R}}} |\hat{F}_n(x) - F(x)|$ $P$ - п.н.
- \end{proof}
- \subsection{9.2. Лемма Неймана-Пирсона}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из распределения $P$, $H_0:$ $P = P_0$ vs. $H_1$: $P = P_1$, $p_0$, $p_1$ — плотности. Если
- $$\exists C_\alpha : P_0\left(\dfrac{p_1(X)}{p_0(X)} \geqslant C_\alpha\right) = \alpha,$$
- то $S = \left\{\dfrac{p_1(x)}{p_0(x)} \geqslant C_\alpha\right\}$ — наиболее мощный критерий уровня значимости $\alpha$ для проверки $H_0$ vs. $H_1$.
- \begin{proof}
- Пусть $R$ — произвольный критерий уровня значимости $\alpha$: $P_0(X \in R) \leqslant \alpha = P_0(X \in S)$
- $$(p_1(x) - C_\alpha p_0(x))I\{x \in R\} \leqslant (p_1(x) - C_\alpha p_0(x))I\{x \in R\}I\{p_1(x) \geqslant C_\alpha p_0(x)\} \leqslant (p_1(x) - C_\alpha p_0(x))I\{x \in S\}.$$
- Берем интеграл от левой и правой части
- $$\underbrace{P_1(X \in R)}_{\beta_R} - C_\alpha P_0(X \in R)\leqslant \underbrace{P_1(X \in S)}_{\beta_S} - C_\alpha P_0(X \in S),$$
- $$\beta_S - \beta_R \geqslant C_\alpha(\underbrace{P_0(X \in S)}_{=\alpha} - \underbrace{P_0(X \in R)}_{=\alpha}) \geqslant 0.$$
- \end{proof}
- \begin{proposition}
- Для критерия Неймана-Пирсона $P(I_S) \leqslant \beta_S$.
- \end{proposition}
- \begin{proof}
- $S = \left\{\dfrac{p_1(X)}{p_0(X)}\right\}$.
- \begin{enumerate}
- \item $C_\alpha \geqslant 1 \Rightarrow \forall x \in S p_1(x) \geqslant p_0(x)$
- $\beta_S = P_1(X \in S) = \displaystyle{\int\displaylimits_{S}} p_1(x)dx \geqslant \int\displaylimits_{S} p_0(x)dx = P_0(X \in S) = P(I_S)$.
- \item $C_\alpha < 1 \Rightarrow \forall x \in \overline{S} p_1(x) < p_0(x)$
- Интегрируем по $\overline{S}$: $\underbrace{P_1(X \notin S)}_{= 1-\beta_S} < \underbrace{P_0(X \notin S)}_{= 1-P(I_S)}$.
- \end{enumerate}
- \end{proof}
- \subsection{9.3. Критерий хи-квадрат}
- Пусть $X = (X_1, \ldots, X_n)$ — выборка из распределения $P$, $H_0:$ $P = P_0$ vs. $H_1$: $P \neq P_0$. Разбиение $\mathscr{X} = \displaystyle{\bigsqcup_{j=1}^k} B_j$, $\mu_j = \#\{i|X_i \in B_j\}$, $p_j^0 = P_0(X_1 \in B_j)$. Статистика критерия
- $$\chi(x) = \displaystyle{\sum_{j=1}^k}\dfrac{(\mu_j - np_j^0)^2}{np_j^0}.$$
- \textbf{Теорема:} $\chi(X) \xrightarrow{d_0} \chi^2_{k-1}$.
- \begin{proof}
- Рассмотрим вектор $Y_i = \begin{pmatrix}
- I\{X_i \in B_1\} \\
- \ldots \\
- I\{X_i \in B_k\}
- \end{pmatrix}$.
- $$\mathbb{E}Y_i = p_0 = \begin{pmatrix}
- p_1^0 \\
- \ldots\\
- p_k^0
- \end{pmatrix},$$
- $$\cov_0(I\{X_i \in B_j\}, I\{X_i \in B_l\}) = \mathbb{E}_0 I\{X_i \in B_j \cap B_l\} - \mathbb{E}_0I\{X_i \in B_j\}\mathbb{E}_0I\{X_i \in B_l\} = $$
- $$=\begin{cases}
- p_j^0 - (p_j^0)^2, & j = l \\
- -p_j^0 p_l^0, & j \neq l
- \end{cases}.$$
- $$\mathbb{D}_0 Y_i = A - p_0p_0^T, \text{ где } A = \diag(p_1^0, \ldots, p_k^0).$$
- ЦПТ:
- $$\sqrt{n}(Y - p_0) \xrightarrow{d_0} \mathcal{N}(0, A - p_0p_0^T),$$
- $$A^{-1/2} = \diag\left(\dfrac{1}{\sqrt{p_1^0}}, \ldots, \dfrac{1}{\sqrt{p_k^0}} \right).$$
- По теореме о наследовании сходимостей
- $$\xi = A^{-1/2}\sqrt{n}(Y - p_0) \xrightarrow{d_0} \mathcal{N}(0, A^{-1/2}(A - p_0p_0^T)A^{-1/2}) = \mathcal{N}(0, I_k - \sqrt{p_0}\cdot\sqrt{p_0}^T),$$
- где $\sqrt{p_0} = \begin{pmatrix}
- \sqrt{p_1^0} \\
- \vdots \\
- \sqrt{p_k^0}
- \end{pmatrix}.$ Возьмем $B \in \mathbb{R}^{k \times k} = \begin{pmatrix}
- \sqrt{p_1^0} & \ldots & \sqrt{p_k^0}\\
- & \text{что-то} &
- \end{pmatrix}$ — ортонормированная. По теореме о наследовании сходимостей
- $$B\xi \xrightarrow{d_0} \mathcal{N}(0, \underbrace{BI_kB^T}_{I_k} - \underbrace{B\sqrt{p_0}\sqrt{p_0}^TB^T}_{(B\sqrt{p_0})(B\sqrt{p_0})^T}) = $$
- $$/ B\sqrt{p_0} = \begin{pmatrix}
- \sqrt{p_1^0} & \ldots & \sqrt{p_k^0}\\
- & \text{что -то} &
- \end{pmatrix}\begin{pmatrix}
- \sqrt{p_1^0} \\
- \vdots \\
- \sqrt{p_k^0}
- \end{pmatrix} =
- \begin{pmatrix}
- 1 \\
- \vdots \\
- 0
- \end{pmatrix}, \text{ т.к. } \displaystyle{\sum_{j=1}^k}p_j^0 = 1\text{ и } B \text{ ортогональна}/$$
- $$=
- \mathcal{N}\left(0, I_k - \begin{pmatrix}
- 1 & 0 & \ldots & 0 \\
- 0 & 0 & 0 & \ldots \\
- \vdots & \dots & \dots & \\
- 0 & \dots & \dots & 0
- \end{pmatrix}\right) =
- \mathcal{N}\left(0, \begin{pmatrix}
- 0 & 0 & \ldots & 0 \\
- 0 & 1 & 0 & \ldots \\
- \vdots & \dots & \dots & \\
- 0 & \dots & \dots & 1
- \end{pmatrix}\right) = \mathcal{N}(0, I_k').$$
- По теореме о наследовании сходимостей
- $$\underbrace{\Vert B\xi \Vert^2}_{= \Vert \xi \Vert^2, \text{ т.к. } B \text{ орт.}} \xrightarrow{d_0} \Vert \mathcal{N}(0, I_k')\Vert = \chi^2_{k-1}.$$
- $$\Vert \xi \Vert^2 = \Vert A^{-1/2} \sqrt{n}(Y - p_0)\Vert^2 = \displaystyle{\sum_{j=1}^k}\left[\dfrac{1}{\sqrt{p_j^0}} \cdot \sqrt{n}\left(\dfrac{\mu_j}{n} - p_j^0\right)\right]^2 = \displaystyle{\sum_{i=1}^k}\dfrac{(\mu_j - np_j^0)^2}{np_j^0} \sim \chi^2_{k-1}.$$
- $$$$
- \end{proof}
- \begin{problem}
- $X_1, \ldots, X_n \sim U[0, \theta]$.
- \begin{enumerate}
- \item Найти полную статистику. Возьмем $S(X) = X_{(n)}$ — достаточная статистика.
- $$p_{X_{(n)}}(x) = \dfrac{n x^{n-1}}{\theta^n}, \;\; x \in [0, \theta],$$
- $$\mathbb{E}_\theta f(X_{(n)}) = \displaystyle{\int\displaylimits_0^\theta}f(x)\dfrac{nx^{n-1}}{\theta^n}dx = 0 \Leftrightarrow \forall \theta \displaystyle{\int\displaylimits_0^\theta} f(x)nx^{n-1}dx = 0 \Leftrightarrow f(\theta) \cdot \theta^{n-1} = 0 \Leftrightarrow f(x) = 0.$$
- \item Найти оптимальную оценку.
- \begin{itemize}
- \item $X_{(n)}$ — полная и достаточная статистика;
- \item $\mathbb{E} X_{(n)} = \dfrac{n}{n+1}\theta$, берем $\varphi(x) = \dfrac{n+1}{n}x$
- $E_\theta \varphi(X_{(n)}) = \theta$.
- $\theta^* = \dfrac{n+1}{n}X_{(n)}$.
- \end{itemize}
- \end{enumerate}
- \end{problem}
- \end{document}
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement