IA 2022-11-21

Bom dia!

IA 2022-11-21

Machine-Learning - Aprendizagem Máquina

ML
ML = {
	supervised learning,
	unsupervised learning
}

n-classificações
n-target classification problem
3-target classification problem

versicolor, virginica, setosa
Ronald Fisher
"iris"
comprimento + largura das pétalas
comprimento + largura das sépalas


(cp, lp, cs, ls)
Shape do dataset

(cp, lp, cs, ls) => virginica
(cp, lp, cs, ls) => setosa
(cp, lp, cs, ls) => setosa
(cp, lp, cs, ls) => versicolor

Kaggle.com

dataset - conjunto de dados
dataset = conjunto de amostras
conjunto de exemplos que pretendem servir para que o agente possa aprender a partir dos exemplo

Aprendizagem supervisionada
Dataset = conjunto de amostras/exemplos
Supervised learning?
Para cada exemplo, está disponível uma associação. Uma classificação certa para cada amostra. 1+ valor correto está disponível para cada amostra.

uma target é uma classificação possível, dentro de um conjunto discreto e finito de classificações possíveis

UNSupervised learning?
amostras não são acompanhadas de uma classificação curada
tem que haver descoberta de como é que se podem organizar as amostras

classificadores = algoritmos para classificação

KNN = K-Nearest Neighbours
Uma amostra nunca antes vista receberá como classificação C, pelo algoritmo KNN, a classificação MAIORITÁRIA dos K exemplos que lhe sejam considerados mais próximos, pela métrica de distância que estiver em uso; por exemplo (e comummente) a distância de Minkowski.
K=1 é o KNN na sua complexidade máxima
K=x , com x>1 é sempre de complexidade inferior a K=1.

Fizemos um exercício: imaginamos uma pessoa nova a entrar na sala, e fomos capazes de classíficá-la, por KNN, por exemplo com K=1, indo à procura da pessoa-em-dataset mais próxima, vimos a sua classificação C, e usamos C para a pessoa nova.
Quanto podemos confiar no classificador?
Chama-se a isto "o problema de aferição de qualidade do modelo".

"Modelo" é uma função
é uma entidade que perante inputs, produz output

input:amostra nova => modelo:classificador que aprendeu a partir de exemplos => output: uma classificação para a amostra nova

Técnica para aferir a qualidade de modelos

NÃO devemos utilizar todo o dataset para ensinar a máquina.
Só devemos usar parte do dataset.
Por exemplo 80% do dataset.
A outra parte que não for usada para ensinar a máquina, ficará propositadamente reservada, para aferição da qualidade da aprendizagem.
Por exemplo, 20% das amostras poderão ser reservadas. Ou seja o classificador nunca as verá.
Porquê? Para quê?
Quando o processo de aprendizagem terminar == quando o modelo estiver disponível, pronto a usar
Podemos usar como inputs do modelo, as amostras reservadas
O modelo vai produzir classificações para essas amostras.
Embora o modelo nunca tenha visto as amostras, nós sabemos a sua classificação perfeita, porque faz parte do dataset supervisionado.
Assim, podemos comparar a classificação feita pelo modelo, com a classificação que sabemos perfeita.

exemplo: imaginem-se 10 amostras reservadas

acertos = 0
for amostra in amostrasReservadas:
	respostaDoModelo = modeloClassificacao(amostra)

	classificacaoPerfeita = dataset(amostra)

	if(respostaDoModelo==classificacaoPerfeita):	acerto+=1

# for

precisao = acertos/len(amostrasReservadas)

Overfitting é o que ocorre quando um modelo é formidável a classificar exemplos do dataset (dá as classificações corretas, portanto coincidentes com a classificação que o dataset fornece), MAS não se comporta adequadamente com amostras novas.


Underfitting é o que ocorre quando o classificador não captura todos os exemplos (produz classificações erradas para amostras do dataset com que foi ensinado)