Untitled

5.1.2	Recomendação inteligente
Falar da estruturação… Tecnologia escolhidoa…Sistema Inteligente com Matrix… Artigo… Escolha de X tecninas e pq
5.1.2.1	Dataset
Este é um dos aspetos críticos e fundamentais num sistema de recomendação. De facto, possuir um dataset com grandes quantidades de dados é imprescindível para o bom funcionamento de qualquer SR. Na verdade, a geração de recomendações, o treino e a criação de modelos necessitam de muitos dados para funcionarem de forma precisa e com qualidade.
Este ponto tornou-se numa considerável limitação para o presente sistema, visto que a obtenção de dados relativos a classificações de treinos por parte de diferentes utilizadores, ou dados relacionados, num curto espaço de tempo, foi uma missão impossível. Desta forma, foi feito uma pesquisa com o intuito de encontrar serviços relacionados com o fitness (APIs) que disponibilizassem certos dados que permitissem a criação de um dataset e, ao mesmo tempo, tentar comunicar com empresas de fitness (p.e. Jefit) para a disponibilização de dados. Contudo, ambas as tentativas não tiveram sucesso.
Assim, foram discutidas duas possíveis soluções para o problema:
I.	Criação de um dataset fictício relacionado com o fitness;
II.	Utilização de um dataset real não relacionado com o fitness.
A primeira abordagem tem a única vantagem de estar relacionada com o tema do projeto. Na verdade, como o dataset seria criado de forma subjetiva e um pouco aleatória, faria com que a geração de recomendações fosse elaborada baseada em dados “não reais”, resultando em sugestões não precisas e com pouco fundamento.
Por outro lado, a segunda abordagem possui a desvantagem de não estar relacionada com o tema do projeto, contudo, proporcionava com que a geração de recomendações fosse executada baseada em dados de pessoas reais e com fundamento.
 Tendo em conta a análise efetuada, foi escolhida a segunda opção. De facto, deu-se prioridade à testabilidade do algoritmo com um dataset real funcionando como uma prova de conceito, isto é, caso sejam obtidos resultados positivos nos testes efetuados com o dataset escolhido, é de esperar que estes resultados também sejam positivos com um conjunto de dados relativo ao fitness.
Sendo assim, procedeu-se à escolha de um dataset. Foi escolhido o MovieLens Dataset [100] devido à sua “vasta utilização na educação, pesquisa e indústria. [É de tal forma popular que] o seu download é feito centenas de milhares de vezes por ano, refletindo o seu uso em livros populares de programação, em cursos tradicionais e online, e no software.” [101]. O dataset é caracterizado por conter mais de 27 milhões de classificações de 58 mil filmes diferentes por 280 mil utilizadores. Apresenta, principalmente, dois ficheiros em .csv: classificações dos utilizadores no formato <userID, itemID, rating, timestamp> e filmes no formato <itemID, title, tags>.
Para realizar a importação dos dados para o sistema, os ficheiros foram convertidos para .txt com o intuito de diminuir o seu tamanho (741Mb para 2MB). De seguida, foi criada uma determinada lógica de importação para cada ficheiro. Na Figura 34 encontra-se ilustrado um excerto de código para a importação do ficheiro dos ratings dos utilizadores.

Figura 34 - Excerto de Código: Importação dos ratings dos utilizadores