Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Bom dia!
- IA 2022-11-21
- Machine-Learning - Aprendizagem Máquina
- ML
- ML = {
- supervised learning,
- unsupervised learning
- }
- n-classificações
- n-target classification problem
- 3-target classification problem
- versicolor, virginica, setosa
- Ronald Fisher
- "iris"
- comprimento + largura das pétalas
- comprimento + largura das sépalas
- (cp, lp, cs, ls)
- Shape do dataset
- (cp, lp, cs, ls) => virginica
- (cp, lp, cs, ls) => setosa
- (cp, lp, cs, ls) => setosa
- (cp, lp, cs, ls) => versicolor
- Kaggle.com
- dataset - conjunto de dados
- dataset = conjunto de amostras
- conjunto de exemplos que pretendem servir para que o agente possa aprender a partir dos exemplo
- Aprendizagem supervisionada
- Dataset = conjunto de amostras/exemplos
- Supervised learning?
- Para cada exemplo, está disponível uma associação. Uma classificação certa para cada amostra. 1+ valor correto está disponível para cada amostra.
- uma target é uma classificação possível, dentro de um conjunto discreto e finito de classificações possíveis
- UNSupervised learning?
- amostras não são acompanhadas de uma classificação curada
- tem que haver descoberta de como é que se podem organizar as amostras
- classificadores = algoritmos para classificação
- KNN = K-Nearest Neighbours
- Uma amostra nunca antes vista receberá como classificação C, pelo algoritmo KNN, a classificação MAIORITÁRIA dos K exemplos que lhe sejam considerados mais próximos, pela métrica de distância que estiver em uso; por exemplo (e comummente) a distância de Minkowski.
- K=1 é o KNN na sua complexidade máxima
- K=x , com x>1 é sempre de complexidade inferior a K=1.
- Fizemos um exercício: imaginamos uma pessoa nova a entrar na sala, e fomos capazes de classíficá-la, por KNN, por exemplo com K=1, indo à procura da pessoa-em-dataset mais próxima, vimos a sua classificação C, e usamos C para a pessoa nova.
- Quanto podemos confiar no classificador?
- Chama-se a isto "o problema de aferição de qualidade do modelo".
- "Modelo" é uma função
- é uma entidade que perante inputs, produz output
- input:amostra nova => modelo:classificador que aprendeu a partir de exemplos => output: uma classificação para a amostra nova
- Técnica para aferir a qualidade de modelos
- NÃO devemos utilizar todo o dataset para ensinar a máquina.
- Só devemos usar parte do dataset.
- Por exemplo 80% do dataset.
- A outra parte que não for usada para ensinar a máquina, ficará propositadamente reservada, para aferição da qualidade da aprendizagem.
- Por exemplo, 20% das amostras poderão ser reservadas. Ou seja o classificador nunca as verá.
- Porquê? Para quê?
- Quando o processo de aprendizagem terminar == quando o modelo estiver disponível, pronto a usar
- Podemos usar como inputs do modelo, as amostras reservadas
- O modelo vai produzir classificações para essas amostras.
- Embora o modelo nunca tenha visto as amostras, nós sabemos a sua classificação perfeita, porque faz parte do dataset supervisionado.
- Assim, podemos comparar a classificação feita pelo modelo, com a classificação que sabemos perfeita.
- exemplo: imaginem-se 10 amostras reservadas
- acertos = 0
- for amostra in amostrasReservadas:
- respostaDoModelo = modeloClassificacao(amostra)
- classificacaoPerfeita = dataset(amostra)
- if(respostaDoModelo==classificacaoPerfeita): acerto+=1
- # for
- precisao = acertos/len(amostrasReservadas)
- Overfitting é o que ocorre quando um modelo é formidável a classificar exemplos do dataset (dá as classificações corretas, portanto coincidentes com a classificação que o dataset fornece), MAS não se comporta adequadamente com amostras novas.
- Underfitting é o que ocorre quando o classificador não captura todos os exemplos (produz classificações erradas para amostras do dataset com que foi ensinado)
Advertisement
Add Comment
Please, Sign In to add comment