Representación de una neurona:
Una capa es en conjunto de neuronas y una red neuronal es un conjunto de capas
Ahora bien, dada una neurona consideraremos un conjunto de entradas $x_{j}$ y un conjunto de pesos sinápticos (o simplemente pesos) $w_{ij}$, donde $i$ corresponde al número de la neurona que se está considerando en una capa y $j$ al número del peso asociado.
Entonces, dada la información de entrada $x_{j}$, $j=1,\ldots,n$, en una neurona (digamos, por ejemplo, la neurona 1), consideraremos el vector $(x_{1},\ldots,x_{n})$ y el vector de pesos asociados a dichos valores $(w_{11},\ldots,w_{1n})$. Pasaremos entonces el valor de
$$ (w_{11},\ldots,w_{1n})\cdot(x_{1},\ldots,x_{n})=\sum_{j=1}^{n}w_{1j}x_{j} $$a la neurona 1, donde la operación $\cdot$ es el producto punto. Lo anterior se conoce como regla de propagación.
Cabe mencionar que el vector de pesos se asigna inicialmente de manera aleatoria, después dichos valores irán cambiando, lo cual veremos en clases posteriores.
Dado que los valores de $x_{j}$ son información que nosotros ingresamos a la red neuronal, entonces dichos valores son fijos y conocidos. Luego, se busca hallar valores de los pesos adecuados que se adapten de mejor manera a nuestro modelo. Así, considerando $y=\sum_{j=1}^{n}w_{1j}x_{j}$, entonces vemos que la información pasada a cada neurona no es más que un problema de regresión lineal, donde los parámetros a estimar son los pesos
Notemos que la idea detrás de los pesos radica en qué tan influyente o importante es la distinta información de entrada respecto a la información (o valor) que pasamos a nuestra neurona. Esto es, dadas algunas característica, mediante los pesos se puede determinar que características son más importantes que otras, o qué proporción de las características tomamos para la información que es pasada a las neuronas.
Ahora bien, pasando información a una neurona tendremos dos posibilidades: la neurona se excita o se inhibe.
Cuando una neurona se excita logra transmitir información. De esta manera, dentro de nuestra red neuronal, cuando algunas neuronas de una capa son excitadas, éstas transfieren información a las neuronas de la siguiente capa. Cuando una neurona se inhibe, entonces ésta no pasa información.
Lo anterior lo lograremos modelar estableciendo que, si $\sum_{j=1}^{n}w_{1j}x_{j}>0$, entonces la neurona se excitará, y caso contrario la neurona se inhibirá. En este punto podemos decir que el 0 es el umbral (grado de inhibición), el cual nos determina cuándo una neurona se excita o se inhibe. Así, considerando el número $b_{1}$, podemos establecer de manera más general que el umbral sea $b_{1}$, donde un caso particular sería cunado $b_{1}=0$ (recordemos que estamos trabajando actualmente con la neurona número 1, por lo cual los subíndices tiene el número asignado de 1). De donde tendremos entonces que la neurona se excita si $\sum_{j=1}^{n}w_{1j}x_{j}>b_{1}$. En realidad, por simpleza, podemos considerar que el umbral siempre sea el 0, para lo cual consideramos
$$ \sum_{j=1}^{n}w_{1j}x_{j}>b_{1} \ \ \Rightarrow \ \ \sum_{j=1}^{n}w_{1j}x_{j}+(-)b_{1}>0 \ \ \Rightarrow \ \ \sum_{j=0}^{n}w_{1j}x_{j}>0 $$donde $w_{10}=b_{1}$ y $x_{10}=-1$. Así, vemos de manera más directa como, en efecto, la información pasada a la neurona prácticamente es una regresión lineal múltiple $y_{i}=\beta_{0}+\beta_{1}x_{i1}+\beta_{2}x_{i2}+\cdots +\beta_{n}x_{in}$.
En consecuencia tendremos:
Como en cada neurona la información dada no es más que una regresión lineal, entonces si consideramos una capa de neuronas
El problema que se nos surge es que en la red neuronal estamos concatenado (mediante las neuronas) muchas regresiones lineales, lo cual resulta en un comportamiento, de nuevo, de regresión lineal. Así, dado que el resultado de concatenar muchas regresiones es una regresión, entonces el modelo de nuestra red neuronal es "compactado" a una sola regresión lineal, es decir, a una sola neurona.
Por ende, manipularemos cada una de las rectas de la regresión de las neuronas mediante una función de activación, por lo que, al concatenar ahora dichos resultados ya no obtendremos una regresión lineal y nuestro modelo no podrá ser "compactado" como se menciona antes.
Tenemos entonces que una fucnión de activación será de la forma
$$ y_{i}=f\left(\sum_{j=0}^{n}w_{1j}x_{j}\right) $$Como ejemplo, podemos decir que la función de activación es la función identidad $y=x$ por lo cual caemos en el primer caso en el que estabamos trabajando pues tendremos $y_{i}=\sum_{j=0}^{n}w_{1j}x_{j}$.
Hay algunas funciones de activación muy populares como
Veremos más adelante la utilidad de utilizar, por ejemplo, las fucniones de activación anteriores.