# importaciones necesarias
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

# Cargamos el conjunto de datos a utilizar
iris = sns.load_dataset('iris')
iris.head()


# Graficamos
plt.style.use('ggplot')
sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species')
plt.title("Largo de pétalo vs ancho de pétalo por especie")
plt.show()


# Instanciamos el modelo configurando un numero de vecinos de 5
knn = KNeighborsClassifier(n_neighbors=5)

# Definimos las variables
X = iris[['petal_length', 'petal_width']].values
# Etiquetas asociadas
y = iris['species'].ravel()

# Ajustamos
knn.fit(X,y)

KNeighborsClassifier()

KNeighborsClassifier()


# Graficamos
plt.style.use('ggplot')
# Puntos nuevos
plt.plot(2.2, 0.6, marker="*", color='gray', markersize=12)
plt.plot(4.9, 1.6, marker="*", color='gray', markersize=12)
plt.plot(6, 2, marker="*", color='gray', markersize=12)
sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species')
plt.title("Largo de pétalo vs ancho de pétalo por especie")
plt.show()


import numpy as np

# Definimos un array con los datos nuevos
X_new = np.array([[2.2, 0.6],
                 [4.9, 1.6],
                 [6,   2]])

# Realizamos las predicciones
knn.predict(X_new)

array(['setosa', 'versicolor', 'virginica'], dtype=object)


etiquetas = list(knn.predict(X_new))

dict_etiquetas = {}

for i in range(3):
    dict_etiquetas[etiquetas[i]] = list(X_new[i])
    
dict_etiquetas

{'setosa': [2.2, 0.6], 'versicolor': [4.9, 1.6], 'virginica': [6.0, 2.0]}


# Puntos nuevos
for key, value in dict_etiquetas.items():
    plt.plot(value[0], value[1], marker="*", color='gray', markersize=12)
    plt.text(value[0], value[1], key)
sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species')
plt.title("Largo de pétalo vs ancho de pétalo por especie")
plt.show()


# Importaciones necesarias
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report

# Dividimos los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Ajustamos sobre el conjunto de entrenamiento
knn_e = KNeighborsClassifier(n_neighbors=5)
knn_e.fit(X_train, y_train)

# Calculamos y_pred
y_pred = knn_e.predict(X_test)

# Veamos la matriz de confusion
ConfusionMatrixDisplay(confusion_matrix(y_test, y_pred)).plot()
plt.show()


# Reporte de metricas
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      0.88      0.93         8
   virginica       0.92      1.00      0.96        12

    accuracy                           0.97        30
   macro avg       0.97      0.96      0.96        30
weighted avg       0.97      0.97      0.97        30


# La siguiente metrica nos permite conocer el porcentaje de exactitud del modelo
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.9666666666666667


# Posibles valores de k
k_values = [i for i in range(2, 13)]
k_acc = []

# Ajustamos un modelo para distintos valores de k
for k in k_values:
    # Instanciamos con k vecinos
    knn = KNeighborsClassifier(n_neighbors=k)
    # Ajustamos
    knn.fit(X_train, y_train)
    # Calculamos y_pred
    y_pred = knn.predict(X_test)
    # Calculamos la exactitud
    acc = accuracy_score(y_test, y_pred)
    k_acc.append(acc)
    
# Una vez calculados los distintos valores del accuracy para los modelos
# graficamos
plt.plot(k_values, k_acc, marker='o', color='darkblue')
plt.title(f"Valores del accuracy para k en {k_values}")
plt.xlabel('k')
plt.ylabel("accuracy")
plt.show()


# Ajustamos sobre el conjunto de entrenamiento
knn_final = KNeighborsClassifier(n_neighbors=2)
knn_final.fit(X_train, y_train)

# Calculamos y_pred
y_pred = knn_final.predict(X_test)

# Veamos la matriz de confusion
ConfusionMatrixDisplay(confusion_matrix(y_test, y_pred)).plot()
plt.show()


# Reporte de metricas
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         8
   virginica       1.00      1.00      1.00        12

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

¶

Algoritmo KNN¶

ChatGPT¶

Algoritmo KNN¶

¶