Untitled

\documentclass[12pt]{article}

\usepackage{sbc-template}

\usepackage{graphicx}

\usepackage[brazil]{babel}
\usepackage[utf8]{inputenc}
\usepackage[square,authoryear]{natbib}

\sloppy

\title {Análise de desempenho dos bancos de dados NoSQL Monetdb e SciDB}

\author{Arthur Nascimento, Iuri Bloch, Thaís Ribeiro}

\address{Centro Federal de Educação Tecnológica Celso Suckow da Fonseca - CEFET/RJ
\email{arthur\_vn@hotmail.com, iurivalladaresbloch@gmail.com, thaisribeiro-@hotmail.com}}


\begin{document}

    \maketitle

    \begin{abstract}
        This report presents a comparison of two types of NoSQL database management systems, the SciDB array oriented and MonetDB column store. Being compared from the same database, it is observed which of the two types of guidance is more efficient to work with in large data stream.
    \end{abstract}

    \begin{resumo}
        Este relatório apresenta uma comparação de dois tipos de sistemas de gerenciamento de banco de dados em NoSQL, o SciDB orientado a array e o Monetdb orientado a coluna. Sendo comparados a partir de uma mesma base de dados, é observado qual dos dois tipos de orientação é mais eficiente para se trabalhar com um grande fluxo de dados.
    \end{resumo}


    \section{Introdução}

    Atualmente pode-se observar um grande volume de dados, que ao utilizar processamento de dados tradicionais para armazenamento, mostrou-se insuficiente à grande quantidade de dados, a partir dessa necessidade, foi criado o conceito de Big Data.

    Os sistemas de gerenciamento de dados NoSQL, surgiram para atender a necessidade de administrar um grande fluxo de dados, alta escabilidade e disponibilidade e menor custo operacional e de gestão.

    \subsection{NoSQL} \label{sec:NoSQL}

    O NoSQL possui como principais características ser não-relacional, ser distribuído, possuir fonte aberta e ser escalável. Nele existem diversos tipos orientação de processamento de dados, cujo podemos citar: os orientados à coluna, orientados à chaves, orientado à documentos, baseados em grafos, baseado em banco de dados multidimensionais e entre outros.

    Dentre os sistemas de banco de dados NOSQL, foram escolhidos o SciDB, que possui seu banco de dados orientado a array e Monetdb, com seu banco de dados orientado a coluna para fazer a comparação e estabelecer o melhor método.


    \subsection{SciDB} \label{sec:SciDB}

    Banco de dados que foi projetado para análises avançadas de dados multidimensionais, possui aplicações em gerenciamento e análise de finanças, indústrias e na ciência.

    Sua arquitetura massiva de processamento distribuída em paralelo permite armazenar e acessar dados mais facilmente, diferentemente do banco de dados usando álgebra linear, em que se gasta mais tempo analisando e menos tempo na movimentação de dados móveis para um pacote de software de matemática.


    \subsubsection{Chunk e Chunk Overlap}

    O SciDB possui os conceitos de Chunk e Chunk Overlap que são definidos na criação do Array. O Chunk é uma técnica de particionamento para arrays multidimensionais, onde cada instância é responsável por armazenar e atualizar um subconjunto da matriz localmente, e para a execução de consultas que usam os dados armazenados localmente.

    O Chunk Overlap é uma sobreposição de chunks, essa sobreposição também precisa ser bem definida. Porque se a célula que está sendo buscada estiver nesse sobreposição é preciso ter um tamanho bem definido para otimizar a busca. As vantagens de usar o chunk overlap, ou sobreposição de chunks é: acelerar consultas de vizinhos mais próximos, onde cada chunk pode precisar acessar alguns elementos de seus chunks vizinhos e detectar clusters de dados ou recursos que atravessam mais de um chunk.

    Chunking é especificado para cada matriz da seguinte maneira. Cada dimensão de uma matriz é dividida em pedaços. Por exemplo, uma matriz com comprimento i de tamanho 10, com chunk de tamanho 5 e j de tamanho 30 com chunk tamanho 10 , iria ser fragmentada da seguinte forma:

    \begin{figure}[ht]
        \centering
        \includegraphics[width=.5\textwidth]{Figures/chunked_dimensions.png}
        \caption{Dimensão de um chunk}
        \label{fig:chunked_dimensions}
    \end{figure}

    \subsection{Monetdb}

    Pioneiro em armazenamento de dados por coluna, ele é construído sobre a representação canônica de relações de banco de dados como colunas. Utiliza-se de tabelas para representação  de  entidades, e  os  dados  são  gravados  em  disco,  agrupados por  colunas,  o  que  reduz  o  tempo  de  leitura  e  escrita  em  disco

    MonetDB é projetado para execução em paralelo multi-core em desktops para reduzir o tempo de resposta do processamento de consultas complexas. Cada coluna é mapeada para um arquivo, cujo limite é ditado pelo sistema operativo e plataforma de hardware. O número de segmentos de usuários simultâneos é um parâmetro de configuração.

    \subsection{TPC-H}

    Antes de abordar a concepção do trabalho, deve ser falado sobre a base de dados TPC-H que foi a utilizada nos bancos.

    O TPC-H é um executador de apoio à decisões. Ele consiste em modificações de dados simultâneas. As consultas e os dados que povoam o banco de dados devem ter sido previamente escolhidos para ter ampla relevância em toda a indústria, mantendo um grau de facilidade de implementação. Ele ilustra sistemas que dão suporte à decisão que examinam grande volume de dados(Big Data), executam consultas com um alto grau de complexidade e obtém respostas a questões críticas de negócio.

    TPC-H avalia o desempenho de vários sistemas de suporte à decisão pela execução de conjuntos de consultas contra um banco de dados padrão, sob condições controladas. A métrica de desempenho relatado pelo TPC-H é chamado o TPC-H Composite Query-per-hour Performance Metric (QphH @ Size), e reflete vários aspectos da capacidade do sistema para processar consultas. Estes aspectos incluem o tamanho do banco de dados selecionado contra as consultas que serão executadas, o poder de processamento de consulta quando as consultas são apresentadas por um único fluxo, e a taxa de transferência da consulta quando as consultas são apresentadas por vários usuários simultâneos.

        \begin{figure}[ht]
        \centering
        \includegraphics[width=1.05\textwidth]{Figures/tpch.png}
        \caption{Esquema do TPC-H}
        \label{fig:chunked_dimensions}
    \end{figure}

    \section{Concepção do trabalho}

    Em cada sistema de gerenciamento foram introduzidas as informações necessárias para obter-se o desempenho de cada uma e ao final deste relatório será mostrado qual é melhor em relação ao outro. Nas subseções será mostrado os comandos utilizados e cada descrição necessária para o entendimento dos comandos.

    Primeiro serão demonstradas as etapas realizadas pelo Monetdb e seu tempo de resposta com os dados introduzidos. Em seguida, o mesmo será feito com o SciDB.


    \subsection{Criação de tabelas no Monetdb}

    A primeiro momento, no Monetdb, foram criadas tabelas, a partir dos comandos:

    \begin{verbatim}
CREATE TABLE part (p_partkey integer primary key, p_name
varchar(55), p_mfgr char(25), p_brand char(10), p_type
varchar(25), p_size int, p_container char(10), p_retailprice
decimal, p_comment varchar(23));

CREATE TABLE supplier (s_suppkey int primary key, s_name
char(25), s_address varchar(40), s_nationkey int, s_phone
char(15), s_acctbal decimal, s_comment varchar(101));

CREATE TABLE partsupp (ps_partkey int, ps_suppkey int,
ps_availqty int, ps_supplycost decimal, ps_comment varchar(199));
    \end{verbatim}

    Na primeira tabela são introduzidas as características do produto: uma chave primária, de identificação (primary key), um nome (p\_name), (P\_mfgr) um texto pré-definido fixo,  marca (p\_brand), tipo (p\_type), tamanho (p\_size), (p\_container) um texto pré-definido fixo, preço de varejo (p\_retailprice), e a parte alocada para eventuais comentários (p\_comment).

        \begin{figure}[ht]
        \centering
        \includegraphics[width=1\textwidth]{Figures/part_table.png}
        \caption{Tabela 1}
        \label{fig:part_table}
    \end{figure}

    Na segunda tabela são introduzidas as características do fornecedor que possui além de seu identificador (s\_suppkey), seu nome (s\_name), endereço (s\_address), identificador de seu país (s\_nationkey), número de telefone (s\_phone), (s\_accbal) um número decimal pré-definido e a parte alocada para comentários(s\_comment).

        \begin{figure}[ht]
        \centering
        \includegraphics[width=1\textwidth]{Figures/supllier-ta.png}
        \caption{Tabela 2}
        \label{fig:supllier-ta}
    \end{figure}

    Na terceira tabela são introduzidas as partes suplementares como: seu identificador (ps\_partkey), o identificador do fornecedor (ps\_suppkey), a avaliação de qualidade (que varia de 0 a 10) (ps\_availqty), o custo deste produto (ps\_supplycost) e o espaço reservado para comentários (ps\_comment).

        \begin{figure}[ht]
        \centering
        \includegraphics[width=1\textwidth]{Figures/partsupp.png}
        \caption{Tabela 3}
        \label{fig:partsupp}
    \end{figure}

    \subsection{Inserção de dados na tabela}\label{sec:int}

    Após criadas as tabelas, foram inseridos os dados nas listas a partir dos comandos:

    \begin{verbatim}

COPY INTO nation FROM '/home/bigdata/monetdb/arthureiuri/
nation.tbl' USING DELIMITERS '|', '\n';


    COPY INTO region FROM '/home/bigdata/monetdb/arthureiuri/
    region.tbl' USING DELIMITERS '|', '\n';


    COPY INTO part FROM '/home/bigdata/monetdb/arthureiuri/
    part.tbl' USING DELIMITERS '|', '\n';
    \end{verbatim}


    \subsection{Teste de eficiência}\label{sec:teste}

    Em seguida a adição dos dados no banco, foi testada a eficiência do Monetdb.


    \subsection{Inserção de arrays no SciDB}

    Terminado o experimento no Monetdb, foi inicializado o mesmo no SciDB, primeiramente criando-se arrays a partir dos comandos:

    \begin{verbatim}

CREATE ARRAY region <r_regionkey : int64, r_name : string,
r_comment : string > [I = 0:*, 5, 0];


    CREATE ARRAY nation <n_nationkey : int64, n_name : string,
    n_regionkey : int64, n_comment : string > [I = 0:*, 5, 0];


    CREATE ARRAY supplier <s_suppkey : int64, s_name : string,
    s_address : string, s_nationkey : int64, s_phone : string,
    s_acctbal : float, s_comment : string >  [I = 0:*, 5, 0];

    \end{verbatim}

    No primeiro array foram introduzidas as características da região, como  identificador (r\_regionkey), o nome (r\_name), e o espaço reservado para comentários(r\_comment).

    No segundo array foram introduzidas as características do país, como  identificador (n\_nationkey), o nome (n\_name), o identificador da região(n\_regionkey) e o espaço reservado para comentários(r\_comment).

    No terceiro array foram introduzidas as características do fornecedor, que contém seu identificador (s\_suppkey), seu nome (s\_name), endereço (s\_address), identificador de seu país (s\_nationkey), número de telefone (s\_phone), (s\_accbal) ? e a parte alocada para comentários(s\_comment).

    Ao final da criação de cada array, como pode ser observado, foi apresentado o comando \textit{[I = 0:*, 5, 0]}.
    O primeiro atributo passado, i, assume o valor de 0,


    \subsection{Tranformação de arquivos .csv para .scidb}

    Já criadas as tabelas, foram transformados os arquivos do tipo .csv, com valores de saída separado por vírgulas,  para .scidb, com valores em formato de array:

    \begin{verbatim}
    csv2scidb -s 0 -p NSNS -d ';' </home/bigdata/monetdb/
    arthureiuri/nation.csv> /home/bigdata/monetdb/arthureiuri/
    nation.scidb

    csv2scidb -s 0 -p NSSNSNS -d ';' </home/bigdata/monetdb/
    arthureiuri/supplier.csv> /home/bigdata/monetdb/arthureiuri/
    supplier.scidb

    csv2scidb -s 0 -p NNSNNSSNS -d ';' </home/bigdata/monetdb/
    arthureiuri/orders.csv> /home/bigdata/monetdb/arthureiuri/
    orders.scidb
    \end{verbatim}

    O comando inicial cvs2scidb, prepara a transformação do tipo de arquivo .cvc para o .scidb,

    \subsection{Inserção de dados nos arrays}

    Após inseridos os arrays e transformados os arquivos para a extensão do SciDB, foram inseridos os dados nos arrays.

    \begin{verbatim}
LOAD nation FROM '/home/bigdata/monetdb/arthureiuri/nation.scidb';

LOAD supplier FROM '/home/bigdata/monetdb/arthureiuri/supplier.scidb';

LOAD customer FROM '/home/bigdata/monetdb/arthureiuri/customer.scidb';
    \end{verbatim}

    No primeiro momento foi carregado no banco de dados o arquivo que contém os países, posteriormente foram carregados os fornecedores e em seguida, o arquivo que contém os clientes.

    \subsection{Teste de eficiência}

    O banco agora com dados, permite com que seja testado o banco orientado à arrays, SciDB.


%   \begin{figure}[ht]
%       \centering
%       \includegraphics[width=.5\textwidth]{figures/fig1.jpg}
%       \caption{A typical figure}
%       \label{fig:exampleFig1}
%   \end{figure}
%
%   \begin{figure}[ht]
%       \centering
%       \includegraphics[width=.3\textwidth]{figures/fig2.jpg}
%       \caption{This figure is an example of a figure caption taking more than one
%           line and justified considering margins mentioned in Section~\ref{sec:figs}.}
%       \label{fig:exampleFig2}
%   \end{figure}

    %In tables, try to avoid the use of colored or shaded backgrounds, and avoid
%   thick, doubled, or unnecessary framing lines. When reporting empirical data,
%   do not use more decimal digits than warranted by their precision and
%   reproducibility. Table caption must be placed before the table (see Table 1)
%   and the font used must also be Helvetica, 10 point, boldface, with 6 points of
%   space before and after each caption.

%   \begin{table}[ht]
%       \centering
%       \caption{Variables to be considered on the evaluation of interaction
%           techniques}
%       \label{tab:exTable1}
%       \includegraphics[width=.7\textwidth]{figures/table.jpg}
%   \end{table}

%   \section{Images}

%   All images and illustrations should be in black-and-white, or gray tones,
%   excepting for the papers that will be electronically available (on CD-ROMs,
%   internet, etc.). The image resolution on paper should be about 600 dpi for
%   black-and-white images, and 150-300 dpi for grayscale images.  Do not include
%   images with excessive resolution, as they may take hours to print, without any
%   visible difference in the result.

%   \section{References}

%   Bibliographic references must be unambiguous and uniform.  We recommend giving
%   the author names references in brackets, e.g. \cite{knuth:84},
%   \cite{boulic:91}, and \cite{smith:99}.

%   The references must be listed using 12 point font size, with 6 points of space
%   before each reference. The first line of each reference should not be
%   indented, while the subsequent should be indented by 0.5 cm.

\bibliography{referencias}
\bibliographystyle{apa}

\end{document}