Untitled

\documentclass[12pt,a4paper]{article}
\usepackage[utf8]{inputenc}
\usepackage[spanish]{babel}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage{graphicx}
\author{Diego Francisco Valenzuela Iturra}
\title{}
\date{}

\usepackage{fancyhdr}
\pagestyle{fancy}

\fancyhead[RO,LE]{Universidad de Chile.\\ Prof. Rodrigo Assar.}
\fancyhead[LO,RE]{Facultad de Ciencias Físicas y Matemáticas.\\ \textbf{MA-3403 Probabilidades y Estadística.}}
\fancyfoot[LO,CE]{Diego Valenzuela Iturra.}
\fancyfoot[RO,CE]{ACP.}


\renewcommand{\headrulewidth}{0.6pt}
\renewcommand{\footrulewidth}{0.4pt}

\setlength{\headheight}{40pt}

%El comando \newpage fuerza un cambio de página, y los comandos \nolinebreak y \nopagebreak previenen un cambio de línea o página donde tú no lo deseas.
% Letra caligráfica ejemplo  $\cal F $(x) es una función continua

\begin{document}


Es una técnica proveniente del análisis exploratorio de datos cuyo objetivo es la síntesis de información o reducción de la dimensión (número de variables).

El objetivo es construir un pequeño número de nuevas variables o componentes, en as cuales se concentre la mayor cantidad de información.

Las componentes son calculadas como una combinación lineal de las variables originales (además serán además linealmente independientes)

Dicho de otra manera se busca un espacio tal que la proyección ortogonal de la nube de puntos sobre este espacio tengan una varianza máxima -- permite el estudio de relaciones, clases, etc
\\
\\
En el espacio de los individuos:

Se supone que las variables están centradas y reducidas, se usa la matriz de covarianzas V, notar que esto equivale a usar la matriz de correlaciones R.

Las filas de X son el espacio de los individuos $\in \mathbb R^m$, podemos considerarlos como una nube de puntos cuyo orígen se ubica en el centro de masa de la misma.

El objetivo del método será describir a los individuos de una manera sintética.
\\
\\

En la k-ésima etapa del método se calcula el eje $\vec D_k$ que pasa por el origen para el cual la dispersión de la nube de puntos sea máxima $\Rightarrow \vec D_k$ pasa lo más cerca posible de la nube de puntos $\Rightarrow \hat D_k$ es ortogonal a $\hat D_r~\forall r<k$ construidos en las etapas $1,2,\dots,k-1$, luego $\hat D_k$ es el vector propio asociado al k-ésimo valor propio más grande de la matriz V.


\newpage
\tableofcontents %indice

\newpage
\section{Introducción}

El método ACP construye una transformación lineal que escoje un nuevo sistema de coordenadas para representar el conjunto original de datos multivariados. Es una técnica que se emplea en análisis de grandes volúmenes de datos y para la construcción de modelos predictivos, busca retener las caracteristicas del conjunto de datos que más contribuyen a su variabilidad usando una menor cantidad de variables, también es usado para la creación de índices que resultan de combinar un conjunto de variables entre sí (por ejemplo un índice que mida la salud en relación a características físicas de un población, etc.)

\newpage
\section{Marco Teórico}

\subsection{Descripción general del método}

Sea $X$ una tabla de datos como sigue:

$$
X=
\left[
\begin{array}{clcr}
x_{11} & x_{12} & \cdots & x_{1n} \\
x_{21} & x_{22} & \cdots & x_{2n} \\
\vdots  & \vdots  & \ddots & \vdots \\
x_{m1} & x_{m2} & \cdots & x_{mn}
\end{array}
\right]
\in \mathcal M_{nm}(\mathbb R)
$$

o bien,

$$
X = \left[ \vec X^1 \mid \vec X^2 \mid \cdots \mid \vec X^m \right]
$$

donde $\vec X^j$ es el j-ésimo vector columna o j-ésima variable de la tabla de datos, para $j=1,2,\dots,m$. Notar que el i-ésimo vector fila de la matriz de datos describe al i-ésimo individuo en relación a las $m$ variables.
\\

Se define la k-ésima componente principal o variable sintética, como la combinación lineal de las variables originales dada por:

$$
\vec C^k = X \vec a^k
$$

o equivalentemente

$$
\vec C^k = a_{k1}\vec X^1 + \cdots + a_{kj}\vec X^j + \cdots + a_{km}\vec X^m = \sum_{j=1}^m a_{kj}\vec X^j
$$

con $\vec a^k$ el k-ésimo factor:

$$
\vec a^k=
\left(
\begin{array}{clcr}
a_{k1} \\
a_{k2} \\
\vdots \\
a_{km}
\end{array}
\right)
\in \mathbb R^m
$$

"Los factores $a_{kj}$ constituyen un sistema de pesos para las $m$ variables, las cuales indican cuanto aporta cada varable a la construcción de la componente." \footnote{Según el libro "Minería de Datos", Capítlo 2: Análisis en Componentes Principales (ACP); del Dr. Oldemar Rodríguez Rojas.}

Para evitar posibles problemas relacionados con las escalas de medición de los datos se impone la siguiente restricción:

$$
\sum_{j=1}^m (a_{kj})^2 = 1
$$

\subsection{Definiciones}
\subsection{Restricciones}
\subsection{Desarrollo algebráico}
\subsection{Algoritmo}

\newpage
\section{Aplicación}

\subsection{Ejemplo resuelto}

\newpage
\section{Comentarios y conclusiones}

\subsection{Características}
\subsection{Beneficios}
\subsection{Aplicación}

\newpage

\end{document}