import seaborn as sns

print('Conjuntos de datos disponibles en seaborn: ')
for _ in sns.get_dataset_names():
    print(_, end=', ')

Conjuntos de datos disponibles en seaborn: 
anagrams, anscombe, attention, brain_networks, car_crashes, diamonds, dots, dowjones, exercise, flights, fmri, geyser, glue, healthexp, iris, mpg, penguins, planets, seaice, taxis, tips, titanic,


# cargamos el conjunto de datos iris
df = sns.load_dataset('iris')
df.head()


df.corr(method='pearson')


ax = df.plot.scatter(x='petal_width', y='petal_length', c='blue', grid=True)


# seleccionamos solo las dos variables de interes
df_reducido = df[['petal_width', 'petal_length']]


# Importacion necesaria
from sklearn.model_selection import train_test_split

# definimos las variables
X = df['petal_width'].values.reshape(-1,1)
y = df['petal_length'].values.reshape(-1,1)

# division de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, # conjunto completo
                                       test_size=0.25,    # 25% para pruebas
                                       random_state=123)  # semilla aleatoria


from sklearn.linear_model import LinearRegression

# instanciamos
reg = LinearRegression()

# ajustamos sobre los datos de entrenamiento
reg.fit(X_train, y_train)

LinearRegression()

LinearRegression()


# predicion
y_pred_regression = reg.predict(X_test)

# dataframe con la informacion
df_info = pd.DataFrame(y_pred_regression).rename(columns = {0: 'y_pred_reg'})
df_info['y_test'] = y_test
df_info = df_info.reset_index()
# calculamos las diferencias entre los valores reales y los predichos
df_info['diff'] = abs(df_info.y_pred_reg - df_info.y_test)
# calculamos el porcentaje de error para cada fila
df_info['error'] = (df_info['diff'] * 100) / df_info['y_test']
df_info.head()


df_info.describe()


from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# error cuadratico medio
mse = mean_squared_error(y_pred_regression, y_test)
# R^2
r2 = r2_score(y_pred_regression, y_test)
# veamos
print(f'mse = {mse}\nR^2 = {r2}')

mse = 0.19498031795213722
R^2 = 0.9382883033472239


plt.plot(df_info.index, df_info.y_pred_reg, color='blue', label='prediccioón')
plt.plot(df_info.index, df_info.y_test, color='red', label='real')
plt.legend()
plt.grid()
plt.show()


from keras.models import Sequential
from keras.layers import Dense

def modelo(n1, n2, activacion, epocas, boolean):
    """
    n1: número de neuronas en la primer capa
    n2: número de neuronas en la segunda capa
    activacion: función de activación en la última capa
    epocas: número de épocas
    boolean: booleano para determinar el valor de verbose
    """
    # Instanciamos el modelo
    model = Sequential()
    # Capa de entrada de 1 neurona y capa oculta de n1 neuronas.
    # Para la capa oculta utilizamos la funcion de activacion relu
    model.add(Dense(n1, activation='relu', input_shape=(1,)))
    # Capa oculta 2:
    # n2 neuronas y funcion de activacion relu
    model.add(Dense(n2, activation='relu'))
    # Capa de salida con funcion de activacion "activacion"
    model.add(Dense(1, activation=activacion))
    # Compilacion. Utilizaremos ahora el error cuadratico medio
    model.compile(optimizer='adam', loss='mean_squared_error')
    # Entrenamiento
    modelo = model.fit(X_train, y_train, epochs=epocas, verbose = boolean)
    # prediccion
    y_pred = model.predict(X_test)
    # dataframe con la informacion
    df = pd.DataFrame(y_pred).rename(columns = {0: 'y_pred'})
    df['y_test'] = y_test
    df = df.reset_index()
    df['diff'] = abs(df.y_pred - df.y_test)
    df['error'] = (df['diff'] * 100) / df['y_test']
    # estadisticas
    df_stats = df.describe()
    # grafica
    plt.plot(df.index, df.y_pred, color='blue', label='prediccioón')
    plt.plot(df.index, df.y_test, color='red', label='real')
    plt.legend()
    plt.grid()
    plt.show()
    # MSE
    mse = mean_squared_error(y_pred, y_test)
    print(f'mse = {mse}')
    return modelo, df, df_stats


modelo1, df1, df_stats1 = modelo(40, 25, 'relu', 13, True)
df_stats1

Epoch 1/13
4/4 [==============================] - 0s 2ms/step - loss: 16.4030
Epoch 2/13
4/4 [==============================] - 0s 2ms/step - loss: 15.8458
Epoch 3/13
4/4 [==============================] - 0s 2ms/step - loss: 15.3099
Epoch 4/13
4/4 [==============================] - 0s 3ms/step - loss: 14.7636
Epoch 5/13
4/4 [==============================] - 0s 2ms/step - loss: 14.2382
Epoch 6/13
4/4 [==============================] - 0s 2ms/step - loss: 13.6806
Epoch 7/13
4/4 [==============================] - 0s 2ms/step - loss: 13.0921
Epoch 8/13
4/4 [==============================] - 0s 2ms/step - loss: 12.4487
Epoch 9/13
4/4 [==============================] - 0s 2ms/step - loss: 11.8243
Epoch 10/13
4/4 [==============================] - 0s 2ms/step - loss: 11.1492
Epoch 11/13
4/4 [==============================] - 0s 2ms/step - loss: 10.4892
Epoch 12/13
4/4 [==============================] - 0s 2ms/step - loss: 9.8249
Epoch 13/13
4/4 [==============================] - 0s 2ms/step - loss: 9.0948
2/2 [==============================] - 0s 2ms/step

mse = 8.024392817825545


modelo2, df2, df_stats2 = modelo(40, 25, 'LeakyReLU', 50, False)
df_stats2

2/2 [==============================] - 0s 2ms/step

mse = 0.19440326062005897


import tensorflow as tf

# ReLu con fugas configurando el valor de la pendiente m (alpha)
fun_activacion = lambda x: tf.keras.layers.LeakyReLU(alpha=x)

# alpha=0.3
modelo3, df3, df_stats3 = modelo(40, 25, fun_activacion(0.3), 50, False)
df_stats3

2/2 [==============================] - 0s 3ms/step

mse = 0.19706047023275194


# alpha=0.4
modelo4, df4, df_stats4 = modelo(40, 25, fun_activacion(0.4), 50, False)
df_stats4

2/2 [==============================] - 0s 3ms/step

mse = 0.19659494009660292


# alpha=0.7
modelo5, df5, df_stats5 = modelo(40, 25, fun_activacion(0.7), 50, False)
df_stats5

2/2 [==============================] - 0s 3ms/step

mse = 0.19503224669142566


# alpha=0.4
modelo6, df6, df_stats6 = modelo(40, 25, fun_activacion(0.4), 70, False)
df_stats6

2/2 [==============================] - 0s 3ms/step

mse = 0.1948398463071247


# alpha=0.4
modelo7, df7, df_stats7 = modelo(30, 20, fun_activacion(0.4), 70, False)
df_stats7

2/2 [==============================] - 0s 3ms/step

mse = 0.19387595750027908


df_stats4


# Variables predictorias
X = df.drop(['petal_length', 'species'], axis=1).values
# variable de respuesta
y = df['petal_length'].values.reshape(-1,1)

# division de los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, # conjunto completo
                                       test_size=0.25,    # 25% para pruebas
                                       random_state=123)  # semilla aleatoria  
# instanciamos
reg = LinearRegression()

# ajustamos sobre los datos de entrenamiento
reg.fit(X_train, y_train)

LinearRegression()

LinearRegression()


# predicion
y_pred_regression = reg.predict(X_test)

# dataframe con la informacion
df_info = pd.DataFrame(y_pred_regression).rename(columns = {0: 'y_pred_reg'})
df_info['y_test'] = y_test
df_info = df_info.reset_index()
# calculamos las diferencias entre los valores reales y los predichos
df_info['diff'] = abs(df_info.y_pred_reg - df_info.y_test)
# calculamos el porcentaje de error para cada fila
df_info['error'] = (df_info['diff'] * 100) / df_info['y_test']
df_info.head()


df_info.describe()


# error cuadratico medio
mse = mean_squared_error(y_pred_regression, y_test)
# R^2
r2 = r2_score(y_pred_regression, y_test)
# veamos
print(f'mse = {mse}\nR^2 = {r2}')

mse = 0.12082769704546548
R^2 = 0.9665245914976561


plt.plot(df_info.index, df_info.y_pred_reg, color='blue', label='prediccioón')
plt.plot(df_info.index, df_info.y_test, color='red', label='real')
plt.legend()
plt.grid()
plt.show()


def modelo(n1, n2, activacion, epocas, boolean):
    """
    n1: número de neuronas en la primer capa
    n2: número de neuronas en la segunda capa
    activacion: función de activación en la última capa
    epocas: número de épocas
    boolean: booleano para determinar el valor de verbose
    """
    # Instanciamos el modelo
    model = Sequential()
    # Capa de entrada de 1 neurona y capa oculta de n1 neuronas.
    # Para la capa oculta utilizamos la funcion de activacion relu
    model.add(Dense(n1, activation='relu', input_shape=(3,)))
    # Capa oculta 2:
    # n2 neuronas y funcion de activacion relu
    model.add(Dense(n2, activation='relu'))
    # Capa de salida con funcion de activacion "activacion"
    model.add(Dense(1, activation=activacion))
    # Compilacion. Utilizaremos ahora el error cuadratico medio
    model.compile(optimizer='adam', loss='mean_squared_error')
    # Entrenamiento
    modelo = model.fit(X_train, y_train, epochs=epocas, verbose = boolean)
    # prediccion
    y_pred = model.predict(X_test)
    # dataframe con la informacion
    df = pd.DataFrame(y_pred).rename(columns = {0: 'y_pred'})
    df['y_test'] = y_test
    df = df.reset_index()
    df['diff'] = abs(df.y_pred - df.y_test)
    df['error'] = (df['diff'] * 100) / df['y_test']
    # estadisticas
    df_stats = df.describe()
    # grafica
    plt.plot(df.index, df.y_pred, color='blue', label='prediccioón')
    plt.plot(df.index, df.y_test, color='red', label='real')
    plt.legend()
    plt.grid()
    plt.show()
    # MSE
    mse = mean_squared_error(y_pred, y_test)
    print(f'mse = {mse}')
    return modelo, df, df_stats


# Para este caso aumentamos el numero de epocas
modelo1_mult, df1_mult, df_stats1_mult = modelo(40, 25, fun_activacion(0.4), 70, False)
df_stats1_mult

2/2 [==============================] - 0s 3ms/step

mse = 0.11747747303302854


display(df_stats4)
print()
display(df_stats1_mult)

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

	sepal_length	sepal_width	petal_length	petal_width
sepal_length	1.000000	-0.117570	0.871754	0.817941
sepal_width	-0.117570	1.000000	-0.428440	-0.366126
petal_length	0.871754	-0.428440	1.000000	0.962865
petal_width	0.817941	-0.366126	0.962865	1.000000

	index	y_pred_reg	y_test	diff	error
0	0	4.409119	4.9	0.490881	10.017988
1	1	5.736517	5.5	0.236517	4.300308
2	2	5.957750	5.6	0.357750	6.388392
3	3	3.966653	4.1	0.133347	3.252378
4	4	1.311856	1.4	0.088144	6.296008

	index	y_pred_reg	y_test	diff	error
count	38.000000	38.000000	38.000000	38.000000	38.000000
mean	18.500000	3.489255	3.544737	0.356043	11.113797
std	11.113055	1.801369	1.911374	0.264684	6.819835
min	0.000000	1.311856	1.100000	0.002953	0.089495
25%	9.250000	1.533089	1.425000	0.133154	6.319104
50%	18.500000	3.856036	4.050000	0.274186	9.833552
75%	27.750000	5.072818	5.075000	0.506806	14.613545
max	37.000000	6.178983	6.700000	1.078983	31.703670

	index	y_pred	y_test	diff	error
count	38.000000	38.000000	38.000000	38.000000	38.000000
mean	18.500000	1.048651	3.544737	2.496086	70.268226
std	11.113055	0.575967	1.911374	1.357362	3.610582
min	0.000000	0.349918	1.100000	0.750082	62.309921
25%	9.250000	0.423397	1.425000	0.994972	67.671770
50%	18.500000	1.166187	4.050000	2.954499	69.757323
75%	27.750000	1.554964	5.075000	3.632096	73.297980
max	37.000000	1.908396	6.700000	4.862290	77.715922

Redes neuronales¶

Clase3: Predicción de valores continuos¶

Contenido¶

Regresión lineal ¶

División de los datos¶

Implementación de una red neuronal ¶

Modelos con más variables regresoras ¶

Regresión lineal múltiple¶

Modelo de la red neuronal¶

	index	y_pred_reg	y_test	diff	error
0	0	4.910943	4.9	0.010943	0.223320
1	1	5.797656	5.5	0.297656	5.411921
2	2	5.776232	5.6	0.176232	3.147003
3	3	3.749124	4.1	0.350876	8.557963
4	4	1.092527	1.4	0.307473	21.962350

métrica	reg lineal simple	reg lineal múltiple
$mse$	0.1949	0.1208
$R^2$	0.938	0.9665