Advertisement
Guest User

Untitled

a guest
Sep 23rd, 2019
131
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.34 KB | None | 0 0
  1. 5.1.2 Recomendação inteligente
  2. Falar da estruturação… Tecnologia escolhidoa…Sistema Inteligente com Matrix… Artigo… Escolha de X tecninas e pq
  3. 5.1.2.1 Dataset
  4. Este é um dos aspetos críticos e fundamentais num sistema de recomendação. De facto, possuir um dataset com grandes quantidades de dados é imprescindível para o bom funcionamento de qualquer SR. Na verdade, a geração de recomendações, o treino e a criação de modelos necessitam de muitos dados para funcionarem de forma precisa e com qualidade.
  5. Este ponto tornou-se numa considerável limitação para o presente sistema, visto que a obtenção de dados relativos a classificações de treinos por parte de diferentes utilizadores, ou dados relacionados, num curto espaço de tempo, foi uma missão impossível. Desta forma, foi feito uma pesquisa com o intuito de encontrar serviços relacionados com o fitness (APIs) que disponibilizassem certos dados que permitissem a criação de um dataset e, ao mesmo tempo, tentar comunicar com empresas de fitness (p.e. Jefit) para a disponibilização de dados. Contudo, ambas as tentativas não tiveram sucesso.
  6. Assim, foram discutidas duas possíveis soluções para o problema:
  7. I. Criação de um dataset fictício relacionado com o fitness;
  8. II. Utilização de um dataset real não relacionado com o fitness.
  9. A primeira abordagem tem a única vantagem de estar relacionada com o tema do projeto. Na verdade, como o dataset seria criado de forma subjetiva e um pouco aleatória, faria com que a geração de recomendações fosse elaborada baseada em dados “não reais”, resultando em sugestões não precisas e com pouco fundamento.
  10. Por outro lado, a segunda abordagem possui a desvantagem de não estar relacionada com o tema do projeto, contudo, proporcionava com que a geração de recomendações fosse executada baseada em dados de pessoas reais e com fundamento.
  11. Tendo em conta a análise efetuada, foi escolhida a segunda opção. De facto, deu-se prioridade à testabilidade do algoritmo com um dataset real funcionando como uma prova de conceito, isto é, caso sejam obtidos resultados positivos nos testes efetuados com o dataset escolhido, é de esperar que estes resultados também sejam positivos com um conjunto de dados relativo ao fitness.
  12. Sendo assim, procedeu-se à escolha de um dataset. Foi escolhido o MovieLens Dataset [100] devido à sua “vasta utilização na educação, pesquisa e indústria. [É de tal forma popular que] o seu download é feito centenas de milhares de vezes por ano, refletindo o seu uso em livros populares de programação, em cursos tradicionais e online, e no software.” [101]. O dataset é caracterizado por conter mais de 27 milhões de classificações de 58 mil filmes diferentes por 280 mil utilizadores. Apresenta, principalmente, dois ficheiros em .csv: classificações dos utilizadores no formato <userID, itemID, rating, timestamp> e filmes no formato <itemID, title, tags>.
  13. Para realizar a importação dos dados para o sistema, os ficheiros foram convertidos para .txt com o intuito de diminuir o seu tamanho (741Mb para 2MB). De seguida, foi criada uma determinada lógica de importação para cada ficheiro. Na Figura 34 encontra-se ilustrado um excerto de código para a importação do ficheiro dos ratings dos utilizadores.
  14.  
  15. Figura 34 - Excerto de Código: Importação dos ratings dos utilizadores
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement