Advertisement
Talilo

Correlação de dados.txt

Dec 31st, 2022 (edited)
105
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 6.93 KB | None | 0 0
  1. A correlação determina o grau de associação entre duas variáveis, por exemplo:
  2.  
  3. Preço de um carro e o preço de seu seguro;
  4. Idade e custo de plano de saúde;
  5. Massa corporal e altura.
  6. Mas nem sempre essa associação entre as variáveis é uma relação fácil de ser identificada. Dessa forma, existem os coeficientes de correlação que são responsáveis por determinar o grau de "força" da correlação entre duas variáveis e também sua direção.
  7.  
  8. Coeficiente de Correlação de Pearson
  9. Também conhecido como "ρ de Pearson" esse coeficiente mensura o quão duas variáveis contínuas são correlacionadas. Ele pode varia de -1 a 1, sendo que esses valores indicam:
  10.  
  11. Valores de 0 a -0.3 ou 0 a 0.3: correlação irrelevante;
  12. Valores de -0.3 a -0.5 ou 0.3 a 0.5: correlação fraca;
  13. Valores de -0.5 a -0.7 ou 0.5 a 0.7: correlação moderada;
  14. Valores de -0.7 a -0.9 ou 0.7 a 0.9: correlação forte;
  15. Valores de -0.9 a -1 ou 0.9 a 1: correlação muito forte.
  16. Para medir o grau de correlação de variáveis que não são contínuas existem outros coeficientes de correlação que podem ser utilizados, como o de Spearman, Kendall, dentre outros. Se quiser conhecer um pouco mais sobre esses outros métodos, sugerimos a leitura do artigo Correlação: direto ao ponto.
  17.  
  18. https://medium.com/brdata/correla%C3%A7%C3%A3o-direto-ao-ponto-9ec1d48735fb
  19.  
  20.  
  21. ---------------------
  22. balanceamento de dados
  23. PRÓXIMA ATIVIDADE
  24.  
  25. Dados desbalanceados são aqueles que possuem muitos registros para uma categoria e poucas para uma outra. Por exemplo, imagine que estamos trabalhando com dados sobre o oceano e queremos verificar as condições nas quais acontece um maremoto.
  26.  
  27. Se temos dados de todos os dias de um ano, é bastante provável que existam muito mais dados de mar normal do que de maremoto. Com isso, podemos ter dificuldades em localizar os dados que se referem a essa condição específica.
  28.  
  29. alt text: Gráfico com duas barras verticais. O eixo *y* está intitulado como Frequência e possui os valores de 0 a 1400 em um intervalo de 200 em 200. O eixo *x* possui apenas os nomes das duas barras, sendo eles: Mar normal e Maremoto. A primeira barra está na cor rosa e tem tamanho 1400 e a segunda está na cor azul escuro e possui tamanho 200.
  30.  
  31. Da mesma forma, se o nosso interesse é criar algum modelo que preveja, baseado nos dados, se haverá tsunami, o modelo pode ter dificuldades por conta da quantidade muito pequena de dados com maremoto.
  32.  
  33. Por conta disso, existem técnicas que chamamos de balanceamento de dados. Que fazem justamente um balanceamento, igualando o número de registros que se referem à dias com e sem maremoto.
  34.  
  35. Essas técnicas se dividem em duas vertentes principais: upsampling ou sobreamostragem e downsample ou subamostragem.
  36.  
  37. As técnicas de sobreamostragem consistem em criar, baseados nos registros existentes, novos registros para a classe que aparece menos, até que a quantidade de registros para ambas as classes se iguale. Já as técnicas de subamostragem consistem em excluir registros da classe que mais aparece até que haja a mesma quantidade para ambas as classes.
  38.  
  39. Cada uma das técnicas é mais adequada a diferentes situações. Abaixo estão elencadas algumas vantagens e desvantagens de cada uma das técnicas.
  40.  
  41. Upsampling
  42. Vantagens Desvantagens
  43. Aumenta o número de registros Cria distorções no Dataframe
  44. Facilita a criação de modelos de ML Gera registros que não correspondem à realidade
  45. Downsampling
  46.  
  47. ----------------------
  48. Para saber mais: documentação de dados
  49. PRÓXIMA ATIVIDADE
  50.  
  51. A documentação é uma boa prática da área de software, quando estamos escrevendo código, é importante que façamos comentários explicando o que as funções fazem, por exemplo.
  52.  
  53. Quando trabalhamos com dados, também é importante manter a documentação daquilo que fazemos e para isso, usamos metadados. Metadados são dados sobre os dados! Quando criamos um texto, ou qualquer outro documento que fala sobre quais dados e como eles estão distribuídos em um csv, por exemplo, estamos criando metadados.
  54.  
  55. Eles são úteis pois permitem à outras pessoas conhecer os dados de uma forma eficiente, assim como sanar informações sobre quais transformações os dados sofreram e também qual o contexto no qual os dados estão inseridos. Documentar também permite que outras pessoas compreendam o seu trabalho e possam continuá-lo.
  56.  
  57. --------------------
  58. A variável target, também conhecida como variável dependente ou resposta, é aquela responsável pela definição do tipo de problema que será resolvido em um projeto de Data Science.
  59.  
  60. Caso essa variável seja contínua, estaremos trabalhando com um problema de regressão. Se categórica, estaremos trabalhando com um problema de classificação. Dentro dos problemas de classificação, podemos diferenciar os casos em que a variável target apresenta 2 categorias distintas (variável binária) e os casos em que apresenta 3 ou mais.
  61.  
  62. Ao identificar a variável target de uma base de dados com a função set_target() da biblioteca Oracle ads e checarmos o tipo do conjunto de dados, verificamos que a base de dados é do tipo BinaryClassificationDataset. Além disso, ao utilizar a função target.show_in_notebook(), conseguimos observar, em um gráfico, que a variável target está balanceada:
  63.  
  64. --------------------
  65.  
  66. Para saber mais: gráfico de barras - quando usar?
  67. PRÓXIMA ATIVIDADE
  68.  
  69. O gráfico de barras é muito útil para comparar categorias. Geralmente são usados para evitar a bagunça dos dados, quando as legendas são longas ou se tivermos mais de dez itens para comparar.
  70.  
  71. Dentro do gráfico de barras existem alguns subtipos:
  72.  
  73. Barras agrupadas: os itens são agrupados no eixo vertical, permitindo uma comparação rápida de valores.
  74. Barras empilhadas: uma única barra é utilizada para exibir os itens e as cores das legendas são separadas de maneira bem evidente.
  75. Barras 100% empilhadas: é o mesmo conceito das barras empilhadas, com a diferença de que os valores são exibidos em porcentagem.
  76. Dicas para criar um gráfico de barras:
  77.  
  78. Nomeie os eixos.
  79. Coloque legendas de valores nas barras.
  80. Evite um gráfico “arco-íris”, ou seja, não deixe o gráfico colorido. É bem melhor utilizar uma cor só ou vários tons de uma mesma cor.
  81.  
  82.  
  83. ---------------------
  84.  
  85. Storytelling é a arte de contar histórias utilizando técnicas inspiradas em roteiristas e escritores para transmitir uma mensagem de forma fluida e inesquecível. Quando desenvolvemos um projeto ao qual iremos apresentar, devemos ter uma boa narrativa por trás daquele conteúdo que o torne rico em sentido e faça com que as pessoas compreendam todo o processo de forma objetiva.
  86.  
  87. O storytelling é considerado uma das soft skills mais importantes na área de dados, pois complementa e finaliza um projeto amarrando todas as informações em uma linha contínua. Como sugestão, deixamos este artigo sobre as Soft Skills mais importantes para a área de dados e como desenvolver cada uma delas.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement