Advertisement
Talilo

Tipos de DataFrame.txt

Dec 31st, 2022 (edited)
99
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 6.01 KB | None | 0 0
  1. Tipos de DataFrame
  2.  
  3. Existem diferentes tipos de DataFrames, o mais conhecido deles é o da biblioteca Pandas. Mas, além dele, temos outros tipos pertencentes a outras bibliotecas, como é o caso do ADS DataFrame que aprendemos nas últimas aulas. Cada um desses tipos possuem suas características específicas e podem ser utilizados em diferentes situações.
  4.  
  5. Vamos aprender mais algumas características desses DataFrames e também conhecer um pouco sobre a biblioteca Dask.
  6.  
  7. Pandas
  8. Pandas é uma biblioteca escrita em Python, utilizada para análise e manipulação de dados. O Pandas DataFrame é uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (inteiros, floats, dados categóricos, strings, dentre outros) em colunas. Seu formato é similar a uma planilha excel, sendo composto por linhas e colunas.
  9.  
  10. alt text: print representando um DataFrame com quatro colunas e 5 linhas. As linhas e colunas são formadas por pequenos retângulos. Os retângulos da primeira coluna estão na cor cinza escura e representam os índices das linhas. Os retângulos da primeira linha estão na cor cinza e representam os rótulos das colunas. O restante dos retângulos mais centrais estão na cor cinza claro. A quarta coluna está destacada por um retângulo sem preenchimento seguido pela palavra "coluna". A quarta linha está destacada por um retângulo sem preenchimento seguido pela palavra "linha".
  11.  
  12. As principais características desse DataFrame são:
  13.  
  14. fácil aprendizado;
  15. armazena diferentes tipos de dados;
  16. tratamento flexível e simples de dados faltantes;
  17. aceita algumas operações aritméticas;
  18. fácil manipulação.
  19. No entanto, o uso dessa biblioteca não é muito indicado para trabalhar com um grande volume de dados. Isso porque, o pandas precisa que todos os dados estejam prontamente disponíveis na memória do seu computador e pode acabar limitando a quantidade de dados que podemos trabalhar e também exigindo muito da nossa máquina.
  20.  
  21. Dask
  22. Dask é uma biblioteca criada para computação paralela em Python, ela funciona bem com outras bibliotecas como Pandas, Numpy, Scikit-learn, dentre outras. O Dask DataFrame é composto de muitos Pandas DataFrames, o que permite que a forma como o computador trabalha com os comandos nele seja diferente.
  23.  
  24. alt text: Diagrama composto por 4 retângulos de diferentes alturas e com a mesma largura organizados verticalmente. Todos os retângulos têm contorno laranja escuro e ordenando de cima para baixo, o 1°, 2° e 4° retângulo têm preenchimento em laranja claro, já o 3° retângulo tem preenchimento em laranja um pouco mais escuro. No lado esquerdo do 3° retângulo tem um caractere de chave com o lado aberto selecionando todo o retângulo e no lado fechado tem escrito “Pandas DataFrame”. Ao lado direito do conjunto de retângulos têm um caractere de chave com o lado aberto selecionando todo o diagrama de retângulos e no lado fechado tem escrito “Dask DataFrame”
  25.  
  26. A forma diferente de trabalho do Dask se dá por uma característica dele em atrasar tarefas, na qual, ele prepara um conjunto de transformações ou cálculos para uma execução posterior em paralelo. Essa estrutura é diferente de outras funções no Python que são computadas instantaneamente, no momento em que são chamadas.
  27.  
  28. Dessa forma, o atraso de tarefas do Dask permite que essa biblioteca lide muito bem com um conjunto de dados muito grande ou com muitos grupos em seus dados, o que é uma vantagem acima do Pandas, que necessitaria de um poder de processamento muito alto para lidar com dados como esses.
  29.  
  30. ADS
  31. O ADS é uma biblioteca Python que faz parte do serviço da Oracle Cloud Infrastructure (OCI) Data Science. Essa biblioteca possui uma interface amigável e métodos que abrangem toda a parte de análise e manipulação de dados. O ADS DataFrame é uma estrutura de dados baseado em Pandas, dessa forma, qualquer operação que possa ser executada em um DataFrame Pandas também pode ser aplicada em um conjunto de dados ADS.
  32.  
  33. No ambiente Oracle, é mais interessante utilizar funções específicas do ADS devido a compatibilidade maior com o ambiente. Por conta disso, durante o curso será preferível utilizar as funções do ADS ao invés de outras bibliotecas como Pandas e Dask.
  34.  
  35.  
  36. ------------------
  37. Nas últimas aulas trabalhamos com o método show_in_notebook. Esse método, quando aplicado em um ADS DataFrame, traz como resultado informações bem detalhadas e completas a respeito da nossa base de dados.
  38.  
  39. A análise exploratória é uma parte muito importante no desenvolvimento de um projeto de dados. Essa etapa consiste na análise e investigação do conjunto de dados, com a finalidade de entender e resumir suas principais características utilizando a visualização de dados e outros recursos de exploração.
  40.  
  41. Por que a análise exploratória é tão importante?
  42. É durante essa etapa de exploração que o profissional de ciência de dados consegue identificar algumas características do conjunto de dados, como:
  43.  
  44. erros;
  45. dados nulos;
  46. desbalanceamento de dados;
  47. tipos dos dados dispostos em cada coluna;
  48. relação entre as variáveis; e
  49. distribuição dos valores de cada coluna.
  50. O método ads.show_in_notebook()
  51. Utilizar o método show_in_notebook é uma excelente maneira de começar o processo de exploração dos dados. Isso porque, esse método retorna diversas informações sobre a nossa base de dados, como: tipos dos dados, correlação entre as variáveis, avisos (warnings) e gráficos de distribuição de cada coluna.
  52.  
  53. No entanto, a utilização dessa ferramenta não substitui a importância de realizar uma análise exploratória de forma mais manual e aprofundada. Dessa maneira, você vai conhecer a base de dados de forma mais detalhada, identificar seus principais problemas e, com isso, ter mais ideias de como tratar e manipular seus dados do melhor modo.
  54.  
  55. ----------------------
  56. O método suggest_recomendations retorna diversas sugestões de como podemos resolver possíveis problemas existentes em cada uma das colunas da nossa base de dados.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement