Guest User

Untitled

a guest
Sep 14th, 2018
85
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Latex 15.20 KB | None | 0 0
  1. \documentclass[12pt,a4paper]{article}
  2. \usepackage[utf8]{inputenc}
  3. \usepackage[spanish]{babel}
  4. \usepackage{amsmath}
  5. \usepackage{amsfonts}
  6. \usepackage{amssymb}
  7. \usepackage{graphicx}
  8. \author{Diego Francisco Valenzuela Iturra}
  9. \title{}
  10. \date{}
  11.  
  12. \usepackage{fancyhdr}
  13. \pagestyle{fancy}
  14.  
  15. \fancyhead[RO,LE]{Universidad de Chile.\\ Prof. Rodrigo Assar.}
  16. \fancyhead[LO,RE]{Facultad de Ciencias Físicas y Matemáticas.\\ \textbf{MA-3403 Probabilidades y Estadística.}}
  17. \fancyfoot[LO,CE]{Diego Valenzuela Iturra.}
  18. \fancyfoot[RO,CE]{ACP.}
  19.  
  20.  
  21. \renewcommand{\headrulewidth}{0.6pt}
  22. \renewcommand{\footrulewidth}{0.4pt}
  23.  
  24. \setlength{\headheight}{40pt}
  25.  
  26. %El comando \newpage fuerza un cambio de página, y los comandos \nolinebreak y \nopagebreak previenen un cambio de línea o página donde tú no lo deseas.
  27. % Letra caligráfica ejemplo  $\cal F $(x) es una función continua
  28.  
  29. \begin{document}
  30.  
  31. \newpage
  32. \tableofcontents %indice
  33.  
  34. \newpage
  35. \section{Introducción}
  36.  
  37. Es una técnica proveniente del análisis exploratorio de datos cuyo objetivo es la síntesis de información o reducción de la dimensión (número de variables).
  38.  
  39. El objetivo es construir un pequeño número de nuevas variables o componentes, en as cuales se concentre la mayor cantidad de información.
  40.  
  41. Las componentes son calculadas como una combinación lineal de las variables originales (además serán además linealmente independientes)
  42.  
  43. Dicho de otra manera se busca un espacio tal que la proyección ortogonal de la nube de puntos sobre este espacio tengan una varianza máxima -- permite el estudio de relaciones, clases, etc
  44. \\
  45. \\
  46. En el espacio de los individuos:
  47.  
  48. Se supone que las variables están centradas y reducidas, se usa la matriz de covarianzas V, notar que esto equivale a usar la matriz de correlaciones R.
  49.  
  50. Las filas de X son el espacio de los individuos $\in \mathbb R^m$, podemos considerarlos como una nube de puntos cuyo orígen se ubica en el centro de masa de la misma.
  51.  
  52. El objetivo del método será describir a los individuos de una manera sintética.
  53.  
  54. El método ACP construye una transformación lineal que escoje un nuevo sistema de coordenadas para representar el conjunto original de datos multivariados. Es una técnica que se emplea en análisis de grandes volúmenes de datos y para la construcción de modelos predictivos, busca retener las caracteristicas del conjunto de datos que más contribuyen a su variabilidad usando una menor cantidad de variables, también es usado para la creación de índices que resultan de combinar un conjunto de variables entre sí (por ejemplo un índice que mida la salud en relación a características físicas de un población, etc.)
  55.  
  56. \newpage
  57. \section*{Objetivo.}
  58.  
  59. Intentamos comprender cierto fenómeno midiendo varias cantidades en nuestro sistema. Desafortunadamente, no podemos determinar qué esta sucediendo porque nuestros datos son difusos, poco claros e incluso redundantes. A menudo no sabemos que medidas reflejan mejor el comportamiento de nuestro sistema en cuestión. Así como también, algunas veces medimos magnitudes que en realidad no necesitamos. El método ACP es una manera sistemática para extraer la combinación de variables (o ejes) que mejor representan a nuestro conjunto de datos. El objetivo entonces del ACP es identificar la base más significativa que re-expresa un conjunto de datos con la esperanza de que con esta nueva base se filtre el ruido y se revele la estructura escondida.%luego el método encuentra los vectores unitarios que determinan las dimensiones reelevantes.%
  60. \\
  61.  
  62. \section{Marco Teórico.}
  63.  
  64. Sí tomamos $n$ muestras de un total de $m$ variables podemos ordenarlas en una matriz $X$ de $m \times n$ datos, como se ilustra a continuación:
  65. $$
  66. X=
  67. \begin{pmatrix}
  68. x_{11} & x_{12} & \cdots & x_{1n} \\
  69. x_{21} & x_{22} & \cdots & x_{2n} \\
  70. \vdots  & \vdots  & \ddots & \vdots \\
  71. x_{m1} & x_{m2} & \cdots & x_{mn}
  72. \end{pmatrix}
  73. \in \mathcal M_{mn}(\mathbb R)
  74. $$
  75. Una j-ésima muestra de $m$ datos (o variables) $x_ {ij}$ con $i=1,\dots,m$ para cada $j$ puede escribirse como un vector columna (o vector de medidas) $\vec X^j$:
  76. $$
  77. \vec X^j=
  78. \begin{pmatrix}
  79. x_{1j} \\
  80. x_{2j} \\
  81. \vdots \\
  82. x_{ij} \\
  83. \vdots \\
  84. x_{mj}
  85. \end{pmatrix}
  86. \in \mathbb R^m
  87. $$
  88. Luego, cada muestra $\vec X^j$ es un vector que pertenece a un espacio vectorial m-dimensional y que por lo tanto puede ser reescrito como combinación lineal de algunas bases ortonormales. En efecto, la base canónica refleja el método con que obtuvimos y medimos los datos del vector de medidas. Para el caso m-dimensional, podemos construir una matriz de $m \times m$ para cada conjunto de bases donde identifiquemos cada fila con un vector (traspuesto) ortonormal de la base $\hat B_i$ con $m$ componentes (si se trata de las bases canónicas esta matriz se puede representar como la matriz identidad).
  89. $$
  90. B=
  91. \begin{pmatrix}
  92. \hat {B^1}^t \\
  93. \hat {B^2}^t \\
  94. \vdots \\
  95. \hat {B^m}^t
  96. \end{pmatrix}
  97. \in \mathcal M_{mn}(\mathbb R)
  98. $$
  99. La pregunta es ¿Existe alguna otra base, combinación lineal de las bases originales, que mejor reexprese nuestra tabla de datos?
  100. \\
  101. Digamos que $X  \in \mathcal M_{mn}(\mathbb R)$ es la matriz original de datos, donde cada columna es una muestra individual de nuestra tabla de datos. Llamemos $Y  \in \mathcal M_{mn}(\mathbb R)$ a otra matriz relacionada con $X$ mediante una transformación $P$. Así $X$ es el registro original e $Y$ es una nueva representación de nuestra tabla de datos, luego:
  102. $$PX=Y$$
  103. Esta ecuación representa un cambio de base. Así $P$ es la matriz que transforma $X$ en $Y$, geométricamente $P$ es una rotación y estiramiento que transforma $X$ en $Y$, las filas de $P$ son el conjunto de nuevos vectores básicos para expresar las columnas de $X$.
  104. \\
  105. De manera explícita:
  106. $$
  107. Y=PX=
  108. \begin{pmatrix}
  109. \hat {P^1}^t \\
  110. \hat {P^2}^t \\
  111. \vdots \\
  112. \hat {P^m}^t
  113. \end{pmatrix}
  114. \left( \vec X^1 \mid \vec X^2 \mid \cdots \mid \vec X^m \right)
  115. =
  116. \begin{pmatrix}
  117. \hat {P^1}^t \cdot \vec X^{1} & \dots & \hat {P^1}^t \cdot \vec X^{n} \\
  118. \vdots & \ddots & \vdots \\
  119. \hat {P^m}^t \cdot \vec X^{1} & \dots & \hat {P^m}^t \cdot \vec X^{n}
  120. \end{pmatrix}
  121. \in \mathcal M_{mn}(\mathbb R)
  122. $$
  123. Identificando al j-ésimo vector columna $\vec Y^j$ de elementos $y_ {ij}$ con $i=1,\dots,m$ para cada $j$,
  124. $$
  125. \vec Y^j =
  126. \begin{pmatrix}
  127. y_{1j} \\
  128. \vdots \\
  129. y_{ij} \\
  130. \vdots\\
  131. y_{mj}
  132. \end{pmatrix}
  133. =
  134. \begin{pmatrix}
  135. \hat {P^1}^t \cdot \vec X^{j} \\
  136. \vdots \\
  137. \hat {P^i}^t \cdot \vec X^{j} \\
  138. \vdots\\
  139. \hat {P^m}^t \cdot \vec X^{j}
  140. \end{pmatrix}
  141. \in \mathbb R^m
  142. $$
  143. Reconocemos que cada coeficiente $y_{ij}$ es el producto punto de $\vec X^j$ con la correspondiente fila de $P$, en otras palabras, el i-ésimo coeficiente de $\vec Y^j$ es una proyección en la i-ésima fila de $P$, esta es de hecho la misma forma de la ecuación donde $\vec Y^j$ es la proyección en las bases $\hat P^i$, por lo tanto. las filas de $P$ son un nuevo conjunto de bases para representar las columnas de $X$.
  144. \\
  145. Asumiendo linealidad el problema se reduce a encontrar el cambio de base apropiado. Los vectores fila de $P$ en esta transformación serán las componentes principales de $X$. Ahora bien, ¿Cuál es la mejor manera de reexpresar $X$?, ¿ Qué una buena elección de bases $P$?, la respuesta a estas preguntas tiene relación con lo que nos gustaría exponer en la matriz $Y$.
  146. \subsection{Ruido.}
  147.  
  148. La mayoría de las veces al realizar mediciones de ciertas magnitudes capturamos ruido, ya sea por impresición de los instrumentos de medida, etcétera. Un factor utilizado para medir la precisión de nuestras mediciones es el $SNR$ (del inglés Signal-to-noise-ratio), o radio de varianzas $\sigma^2$.
  149. %%%%%%%%%%%%%%%%%%%%%%%
  150. $$
  151. SNR = \frac{\sigma_{signal}^2}{\sigma_{noise}^2}
  152. $$
  153. Un alto $SNR >> 1$ indica alta precision en la medicion, mientras un bajo SNR indica datos muy ruidosos.
  154. Al proponer medidas razonablemente buenas, en términos cuantitativos se supone que las direcciones con las más altas variaciones y con altos $SNR$, en nuestro espacio de medición, contienen las dinámicas de interés (asumiendo que la base que estamos buscando no es la base canónica, porque esas direcciones no corresponden a las direcciones de más altas variaciones). Maximizando la varianza, asumiendo $SNR>>1$, corresponde encontrar la rotación apropiada de las bases canónicas.
  155. \subsection{Redundancia.}
  156. A veces al medir varios datos o variables se obtiene información redundante, esto sucede por ejemplo cuando a partir de una variable $x_p$ se puede estimar otra variable $x_q$ (o viceversa), entonces ¿Es realmente necesario medir estas 2 variables?, sería mucho más significativo expresar esta relación en una sola (nueva) variable, esta es de hecho la idea central detrás de la reducción dimensional. Cuando esto ocurre decimos que $x_p$ y $x_q$ estan correlacionadas. Cuando ambas variables no tienen relación aparente, porque no se puede predecir una a partir de la otra, decimos que $x_p$ y $x_q$ estan incorrelacionados.
  157. \subsection{Matriz de Covarianza.}
  158. Usando la matriz de covarianza podemos identificar posibles redundancias, si consideramos los vectores fila de variables $\vec X_p$ y $\vec X_q$ para algún $p,q \in \lbrace{1,\dots,m\rbrace}$.
  159. $$
  160. \vec X_p=
  161. \begin{pmatrix}
  162. x_{p1} & x_{p2} & \dots & x_{pj} & \dots & x_{pn}
  163. \end{pmatrix}
  164. ,~~~~~~~~
  165. \vec X_q=
  166. \begin{pmatrix}
  167. x_{q1} & x_{q2} & \dots & x_{qj} & \dots & x_{qn}
  168. \end{pmatrix}
  169. $$
  170. La varianza de $\vec X_p$ y $\vec X_q$ se define individualmente como
  171. $$
  172. \sigma_p^2=\frac{1}{n}\sum_{j=1}^n x_{pj}^2
  173. ,~~~~~~~~
  174. \sigma_q^2=\frac{1}{n}\sum_{j=1}^n x_{qj}^2
  175. $$
  176. La covarianza entre $\vec X_p$ y $\vec X_q$  es
  177. $$
  178. \sigma_{pq}^2=\frac{1}{n}\sum_{j=1}^m x_{pj} ~ x_{qj}
  179. $$
  180. La covariaza mide el grado de relación lineal entre  variables, valores altos y positivos indican datos positivamente correlacionados, valores altos y negativos indican datos negativamente correlacionados, el valor absoluto de la covarianza mide el grado de redundancia. Además, $\sigma_{pq}^2=0$ si $\vec X_p$ y $\vec X_q$ estan incorrelacionados y $\sigma_{pq}^2 =\sigma_q^2$ si $\vec X_p = \vec X_q$.
  181. Podemos escribir la covarianza de $\vec X_p$ y $\vec X_q$ como un producto punto
  182. $$
  183. \sigma_{pq}^2=\frac{1}{n} \vec X_p \cdot \vec {X_q}^t
  184. $$
  185. Finalmente podemos generalizar la noción de covarianza para un conjunto de $m$ vectores fila de variables, para ello definimos la matriz $X$ identificando cada fila con el vector de variables asociado.
  186. $$
  187. X=
  188. \begin{pmatrix}
  189. \vec X_1 \\
  190. \vec X_2 \\
  191. \vdots \\
  192. \vec X_m \\
  193. \end{pmatrix}
  194. \in \mathcal M_{mn}(\mathbb R)
  195. $$
  196. donde cada fila corresponde a todas las medidas realizadas para una sola variable y cada columna corresponde a un conjunto de medidas de un evento particular (o también llamado de manera genérica en la literatura como individuo).
  197. \\
  198. Así, definimos la matriz de covarianza $C_X$:
  199. $$
  200. C_X \equiv \frac{1}{n} X X^t
  201. $$
  202. donde $C_X$ es una matriz cuadrada simétrica de $m \times m$, y los términos de la diagonal son la varianza particular de los tipos de medidas y los términos fuera de la diagonal son la covarianza entre los tipos de medidas. La matriz de covarianzas captura la covarianza entre todos los posibles pares de medidas. Los valores de la covarianza reflejan el ruido y redundancia en nuestras medidas, en la diagonal asumimos que valores altos corresponden a la estructura interesante y fuera de la diagonal que valores altos corresponden a alta redundancia.
  203. Esperaríamos que en la matriz $C_Y$, a la que queremos llegar aplicando transformaciones lineales, sean $0$ los valores fuera de la diagonal, dicho de otro modo $Y$ sea incorrelacionada. Cada dimensión sucesiva en $Y$ debería estar ordenada (de mayor a menor) de acuerdo a variancia.
  204. En ACP se asume que todos los vectores básicos $\hat P^i$ son ortonormales, es decir $P$ es una matriz ortonormal. En 2 dimensiones, por ejemplo, la matriz $P$ actúa como una rotación generada para alinear una base de $X$ (la base canónica en nuestro caso) con el eje de la máxima varianza. En varias dimensiones esto puede realizado mediante un algoritmo simple:
  205. \begin{enumerate}
  206. \item
  207. Seleccionar una dirección normalizada del espacio m-dimensional a lo largo de la cual se maximiza la variancia en $X$, guardar este vector como $\hat P^1$.
  208. \item
  209. Encontrar otra dirección a lo largo de la cual se maximiza la varianza, no obstante, por la condición de ortonormalidad, se restringe la búsqueda a todas las direcciones ortogonales a todas las direcciones previamente seleccionadas, guardar este vector como $\hat P^i$.
  210. \item
  211. Repetir este procedimiento hasta que se han seleccionado $m$ vectores.
  212. \end{enumerate}
  213. El conjunto ordenado de vectores $\hat P^i$ resultante son los componentes principales.
  214. El beneficio de asumir ortonormalidad es que existe un método eficiente para encontrar una solución analítica al problema, además, al ordenar la de mayor a menor de acuerdo a varianza, tenemos un método para juzgar la importancia de la componente principal. La varianza asociada con cada dirección cuantifica cuán reelevante es cada dirección de acuerdo al orden de cada vector $\hat P^i$ y a la correspondiente varianza.
  215. Consideremos que el conjunto de datos es $X \in \mathcal M_{mn}(\mathbb R)$ con $m$ el numero de tipos de medidas o variables y $n$ el número de muestras, el objetivo se resume en lo siguiente: Encontrar la matriz ortonormal $P$ en $Y=PX$ tal que $C_Y=\frac{1}{n} Y Y^t$ es una matriz diagonal. Las filas de $P$ son las componentes principales de $C$.
  216. \\
  217. Comenzamos reescribiendo $C_Y$ en terminos de la variable desconocida $P$:
  218. $$
  219. C_Y = \frac{1}{n} Y Y^t = \frac{1}{n} (PX) (PX)^t = \frac{1}{n} P X X^t P^t = P \left( \frac{1}{n} X X^t \right) P^t = P C_X P^t
  220. $$
  221. $$
  222. \Rightarrow C_Y = P C_X P^t
  223. $$
  224. Recordando que una matriz simétrica $A$ es diagonalizable por una matriz ortonormal de vectores propios, luego una matriz simétrica $A$ puede reescribirse como $A = E D E^t$, donde $D$ es una matriz diagonal y $E$ es una matriz ortonormal de vectores propios puestos como columnas; luego si elegimos una matriz $P$ de manera tal que cada vector $\hat P^i$ es un vector propio de $\frac{1}{n} X X^t$, con esta selección se tiene que $P\equiv E^t$ usando esto y que una matriz $P$ ortonormal ortonormal cumple que $P^t=P^{-1}$,
  225. $$
  226. C_Y = P C_X P^t = P \left( E^t D E \right) = P \left( P^t D P \right) P^t =  \left( P P^t \right) D \left( P P^t \right) = \left( P P^{-1} \right) D \left( P P^{-1} \right)
  227. $$
  228. $$
  229. \Rightarrow C_Y = D
  230. $$
  231. Es evidente que la elección de $P$ diagonaliza $C_Y$, este es el objetivo del ACP, poder resumir los resultados en las matrices $P$ y $C_Y$, notamos que las componentes principales de $X$ son los vectores propios de $C_X = \frac{1}{n} X X^t$ y el i-ésimo valor de la diagonal de $C_Y$ es la varianza $X$ a lo largo de $\hat P^i$.
  232. \\
  233. \section{Comentarios y conclusiones.}
  234. En síntesis podemos decir que el ACP:
  235. \begin{itemize}
  236. \item
  237. Organiza los datos en una matriz de $m \times n$, donde $m$ es el número de tipos de medidas o variables y $n$ es el número de muestras
  238. \item
  239. Sustrae lo significativo de cada tipo de medición
  240. \item
  241. Calcula los vectores propios de la matriz de covarianza.
  242. \end{itemize}
  243.  
  244.  
  245. \end{document}
Add Comment
Please, Sign In to add comment