Advertisement
mfgnik

Untitled

Nov 15th, 2020
302
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 9.35 KB | None | 0 0
  1. \documentclass[10pt]{article}
  2.  
  3. \usepackage{amsfonts,amssymb}
  4. \usepackage{amsmath}
  5. \usepackage[utf8]{inputenc}
  6. \usepackage[english,russian]{babel}
  7. \usepackage{graphicx}
  8. \usepackage{mathtools}
  9. \usepackage{multicol}
  10.  
  11. \newcommand{\argmin}{\mathop{\rm arg\,min}\limits}
  12. \newcommand{\argmax}{\mathop{\rm arg\,max}\limits}
  13. \newcommand{\sign}{\mathop{\rm sign}\limits}
  14. \newcommand{\cond}{\mspace{3mu}{|}\mspace{3mu}}
  15. \def\RR{\mathbb{R}}
  16. \def\XX{\mathbb{X}}
  17. \def\EE{\mathbb{E}}
  18. \def\NN{\mathcal{N}}
  19. \def\LL{\mathcal{L}}
  20. \def\YY{\mathbb{Y}}
  21.  
  22.  
  23. \textheight=220mm
  24. \textwidth=160mm
  25.  
  26. \title{Школа анализа данных\\Машинное обучение, часть 2\\Домашнее задание №2}
  27. \author{}
  28. \date{}
  29.  
  30. \begin{document}
  31.  
  32.  
  33. \voffset=-20mm
  34. \hoffset=-17mm
  35. \font\Got=eufm10 scaled\magstep2 \font\Got=eufm10
  36.  
  37.  
  38. \maketitle
  39.  
  40.  
  41. \textbf{Задача 1 (1.5 балла) Композиции алгоритмов, бустинг, AdaBoost}.
  42.  
  43. Обозначим через~$\tilde w^{(N)}$ нормированный вектор весов
  44. на~$N$-й итерации алгоритма AdaBoost.
  45. Покажите, что взвешенная ошибка базового классификатора~$b_N$
  46. относительно весов со следующего шага~$\tilde w_i^{(N + 1)}$
  47. равна~$1/2$:
  48. \[
  49. \sum_{i = 1}^{\ell}
  50. \tilde w_i^{(N + 1)}
  51. [b_N(x_i) \neq y_i]
  52. =
  53. \frac{1}{2}.
  54. \]
  55.  
  56. \bigskip
  57.  
  58.  
  59. \textbf{Задача 2 (2 балла) Градиентный бустинг}.
  60. ~
  61.  
  62. \begin{enumerate}
  63.  
  64.  
  65. \item Какой функции потерь будет соответствовать градиентный бустинг, который на каждой итерации настраивается на разность между вектором истинных меток и текущим вектором предсказанных меток?
  66.  
  67. \item Градиентный бустинг обучается на пяти объектах с функцией потерь для одного объекта
  68. \[
  69. \mathcal{L}(\tilde y, y) = (\tilde y - y)^4.
  70. \]
  71. На некоторой итерации полученная композиция дает ответ $(5, 10, 6, 3, 0)$. На какой вектор ответов будет настраиваться следующий базовый алгоритм, если истинный вектор ответов равен $(6, 8, 6, 4, 1)$?
  72.  
  73. \item Рассмотрим задачу бинарной классификации,~$Y = \{0, 1\}$.
  74. Будем считать, что все алгоритмы из базового семейства~$\mathcal{A}$
  75. возвращают ответы из отрезка~$[0, 1]$, которые можно интерпретировать
  76. как вероятности принадлежности объекта к классу~$1$.
  77. В качестве функции потерь возьмем отрицательный
  78. логарифм правдоподобия~(negative log-likelihood):
  79. \[
  80. L(y, z)
  81. =
  82. -\bigl(
  83. y \log z
  84. +
  85. (1 - y) \log(1 - z)
  86. \bigr),
  87. \]
  88. где~$y$~--- правильный ответ, а~$z$~--- ответ алгоритма.
  89.  
  90. Выпишите формулы для поиска базовых алгоритмов~$b_n$
  91. и коэффициентов~$\gamma_n$ в градиентном бустинге.
  92. \end{enumerate}
  93. \bigskip
  94.  
  95.  
  96.  
  97. \bigskip
  98. \textbf{Задача 3 (1.5 балла) Композиции, устойчивость к шуму}.
  99. ~
  100.  
  101. \begin{enumerate}
  102. \item Рассмотрим алгоритм AdaBoost~--- бустинг с экспоненциальной функцией потерь \\
  103. $$\mathcal{L}(M)=\exp(-M),$$
  104. где $M$ — отступ объекта. Покажите, что алгоритм неустойчив к шуму, т.е. возможен неограниченный рост отношения весов шумовых объектов по отношению к весам пороговых объектов.
  105. \item Покажите, что бустинг с логистической функцией потерь\\
  106. $$\mathcal{L}(M) = \log (1+\exp(-M))$$
  107. устойчив к шуму в описанном выше смысле смысле.
  108. \end{enumerate}
  109.  
  110. ~
  111.  
  112. Примечание. Пороговые объекты~--- это те, для которых значение отступа положительно и порядка нуля, то есть они лежат близко к границе между классами и в своем классе. Шумовые объекты лежат глубоко в чужом классе, на них отступ принимает большие отрицательные значения.
  113. \bigskip
  114.  
  115.  
  116.  
  117.  
  118.  
  119.  
  120.  
  121. \textbf{Задача 4 (2 балла) Ранжирование.}
  122.  
  123. Имеются два ранжирующих правила $h_1(x)$ и $h_2(x)$. Дана выборка из одного запроса и $N$ документов. Релевантности документов и ответы каждого из ранжирующих правил на каждом документе этой выборки известны.
  124. Предложите точный алгоритм построения линейной композиции
  125. \[
  126. h(x) = \alpha h_1(x) + (1-\alpha) h_2(x),~~\alpha \in [0,1]
  127. \]
  128. двух ранкеров, имеющей оптимальное значение NDCG на этой выборке.
  129. Сложность алгоритма должна быть не выше $O(N^3)$.
  130.  
  131. \bigskip
  132.  
  133. \textbf{Задача 5 (2 балла) Рекомендательные системы, матричные разложения.}
  134.  
  135. Допустим, мы хотим обучить рекомендательную систему, имея историю взаимодействия $n$ пользователей и $m$ товаров. Рассмотрим матрицу оценок $R\in \mathbb{R}^{n\times m}$, в которой известны лишь некоторые элементы: $r_{ui}$ -- оценка пользователя~$1\le u\le n$ для товара~$1\le i\le m$. Дополнительно предположим, что доля пар $(u,i)$ с известными оценками относительно всех пар равна $\alpha$, причем эти пары равномерно распределены по матрице оценок. Рассмотрим способ предсказания неизвестных оценок на основе модели Latent Factor Model, которая использует малоранговую аппроксимацию ранга~$r$ матрицы $R$:
  136. $$\tilde r_{ui} = p_u^T q_i, \quad p_u \in \mathbb{R}^{r}, \quad q_i \in \mathbb{R}^{r}.$$
  137. Параметры модели можно подбирать в ходе решения задачи восстановления пропущенных значений матрицы оценок (Matrix Completion):
  138. $$P,Q = \argmin_{P \in \mathbb{R}^{r\times n}, Q \in \mathbb{R}^{r\times m}} \sum_{(u,i)\in \text{known}}(r_{ui} - p_u^Tq_i)^2.$$
  139. Рассмотрим один из алгоритмов решения этой оптимизационной задачи -- Alternating Least Squares (ALS). Этот алгоритм поочередно фиксирует матрицы $P$ или $Q$ и подбирает оптимальное значение другой матрицы, точно решая задачу с помощью линейного метода наименьших квадратов. Например, при фиксированном $P$:
  140. $$Q = \argmin_{Q \in \mathbb{R}^{r\times m}} \sum_{(u,i)\in \text{known}}(r_{ui} - p_u^Tq_i)^2.$$
  141. Выпишите явные формулы для вычисления оптимального $Q$ при фиксированном $P$, а также покажите, что вычислительная сложность одного такого шага равна $O\left(r^2m(\alpha n + r)\right)$.
  142.  
  143. \bigskip
  144. \textbf{Задача 6 (1 балла) Рекомендательные системы, матричные разложения.}
  145.  
  146. В факторизационных машинах предсказание для объекта~$x \in \RR^{d}$ делается по формуле
  147. \[
  148. a(x)
  149. =
  150. w_0
  151. +
  152. \sum_{i = 1}^{d}
  153. w_j x_j
  154. +
  155. \sum_{i = 1}^{d} \sum_{j = i + 1}^{d}
  156. x_i x_j
  157. \langle \vec v_i, \vec v_j \rangle.
  158. \]
  159. Вычисление предсказания по этой формуле требует~$O(rd^2)$ операций,
  160. где~$r$~--- размер векторов~$\vec v_1, \dots, \vec v_d$.
  161. Покажите, что это же предсказание может быть найдено за~$O(rd)$ операций.
  162.  
  163. \bigskip
  164.  
  165.  
  166.  
  167.  
  168.  
  169. \end{document}
  170.  
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement