\documentclass{report}
\RequirePackage[francais]{babel}
\RequirePackage[utf8]{inputenc}
\usepackage{amsmath}
\usepackage{graphicx}
\begin{document}
\section{Rapport d'avancement Stage M2 au 05/04/2012}
\subsection{descriptif de ta base de données}
Les données stocké dans la base de données Metaviro proviennent de divers fichiers EMBL. J'ai récupéré ces fichiers sur le site Plante Virus Database
(http://www.dpvweb.net), un site qui référence un certains nombres de virus de plantes, de champignons et de levures.
J'ai divisé ces fichiers en 3 sous-groupe:
\begin{itemize}
\item{virus plante}
\item{virus fungi}
\item{virus levure} \\
\end{itemize}}
Il y a 36 436 fichiers de virus plante, dans lesquels on trouve 49 961 CDS.
Il y a 797 fichiers de virus fungi, dans lesquels on trouve 854 CDS.
Il y a 36 fichiers de virus levure, dans lesquels on trouve 42 CDS.
On retrouve 2779 organismes différents et 25 type d'organismes (virus simple brin, double brin, satellite etc)\\
Le nombre attendu dans les tables de découpages correspond a ce que l'on attendait :
\begin{itemize}
\item{16 x 50 857 = 813 712 lignes pour la table dinucl}
\item{64 x 50 857 = 3 254 848 lignes pour la table trinucl}
\item{256 x 50 857 = 13 019 392 lignes pour la table tetranucl}
\item{1024 x 50 857 = 52 077 568 lignes pour la table pentanucl}
\item{4096 x 50 857 = 208 310 272 lignes pour la table hexanucl} \\
\end{itemize}
La base de donnée fait actuellement 7 Go, la majorité prise par les table pentanucl (1.4 Go) et hexanucl (5,2 Go)
\subsection{les définitions de base pour les premières analyses}
\begin{prop}
Dans l'article « Genome signature analysis of thermal virus metagenomes reveals Archaea and thermophilic signatures » la fréquence pour chaque K-mer est calculé ainsi ~:
\begin{displaymath}
E(W) = [(A^a \times C^c \times G^g \times T^t) \times N]
\end{displaymath}
Ou :
\begin{description}
\item[N] {est la longueur total de la séquence (pour nous le CDS)}
\item[A,T,C et G] {sont les fréquences respectives des nucléotides dans le k-mer}
\item[a,t,c et g] {sont le nombre d’occurence des nucléotides dans le k-mer}
\end{description}
\end{prop}
\newpage
\begin{prop}
On calcule ensuite la distance euccurrence des nucléotides dans le k-mer
lidienne déterminée par:
\begin{displaymath}
D_t = \frac{1}{N^N} \times \sum|F1(W) – F2(W)|
\end{displaymath}
Ou :
\begin{description}
\item[N] {est la longueur de la séquence}
\item[F1(W) – F2(W)] {est la différence entre la fréquence attendu et la fréquence réel.} \\
\end{description}
\end{prop}
Il faudra ensuite faire du boostrap pour vérifier que nos résultats ne sont pas du au hasard.
Enfin, un arbre phylogénétique sera créer à partir de la matrice des distances euclidiennes afin de voir si oui ou non les séquences appartenant au même organisme sont proche.
\subsection{les premières statistiques}
\begin{figure}[!h] %on ouvre l'environnement figure
\includegraphics[width=5cm]{/home/dchoisne/Bureau/di_01_Kenaf_2006.png} %ou image.png, .jpeg etc.
\caption{Exemple d'histogramme de frequence selon les k-mers pour un organisme donnée} %la légende
\label{Figure1} %l'étiquette pour faire référence à cette image
\end{figure} %on ferme l'environnement figure
\end{document}