Deep Learning

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

Aprendizaje profundo

Es una técnica dentro del aprendizaje automático (Machine Learning) basado en arquitecturas de
redes neuronales. Está relacionado con algoritmos inspirados en la estructura y función del cerebro,
de ahí el nombre redes neuronales artificiales. El aprendizaje profundo se puede utilizar para
procesar imágenes, reconocimiento de voz, reconocimiento facial, clasificación de texto, etc.

¿En qué se diferencia el aprendizaje profundo del aprendizaje automático?

La principal diferencia es cómo se presentan los datos en el modelo. Los algoritmos de aprendizaje
automático necesitan orientación y datos estructurados, mientras que las redes de aprendizaje
profundo utilizan capas de redes neuronales artificiales (ANN) para determinar por sí mismas si su
predicción fue precisa o no.

¿Qué son las redes neuronales artificiales?

Las redes neuronales artificiales son un modelo inspirado en el funcionamiento del cerebro humano.
Está formado por un conjunto de nodos conocidos como neuronas artificiales que están conectadas
y transmiten señales entre sí. Estas señales se transmiten desde la entrada hasta generar una salida.

Función de activación Sigmoid – Sigmoide: La función sigmoide transforma los valores introducidos
a una escala (0,1), donde los valores altos tienen de manera asintótica a 1 y los valores muy bajos
tienden de manera asintótica a 0.

Función Tanh – Tangent Hyperbolic – Tangente hiperbólica: La función tangente hiperbólica


transforma los valores introducidos a una escala (-1,1), donde los valores altos tienen de manera
asintótica a 1 y los valores muy bajos tienden de manera asintótica a -1.

Función de unidad lineal rectificada (RELU): La función ReLU transforma los valores introducidos
anulando los valores negativos y dejando los positivos tal y como entran.

Función de unidad lineal rectificada (Softmax): La función Softmax transforma las salidas a una
representación en forma de probabilidades, de tal manera que el sumatorio de todas las
probabilidades de las salidas de 1.

Red feedforward o propagación: Esta red solo pueden viajar en una dirección (hacia adelante). Es
decir solo existe un camino de propagación desde la entrada hasta la salida, no existe lazos de
realimentación.
Red feedback o retroalimentación: Esta red puede viajar en ambas direcciones usando bucles, se
permiten todas las conexiones posibles entre las neuronas. Este tipo de red nos permite ajustar
todos los pesos de forma simultánea.

Suma ponderada: Es el producto punto que se aplica a cada entrada con los pesos asociado a cada
neurona y este resultado se le suma el bias. Finalmente este resultado es enviado a una función de
activación.

Función de activación o transferencia: Es un nodo que define la salida de ese nodo, el conjunto de
valores de salida está determinado por un rango (0,1) o (-1,1).

Ajustar los pesos (Descenso del gradiente)

El gradiente es la medida sobre qué tan grande o pequeña tiene la pendiente, también se puede
llamar como derivada.

Descenso por gradiente es el método por el cual las redes neuronales aprenden. Se basa en
encontrar el valor mínimo de la función de error (o función de coste). Recordemos que esta función
es la que comparaba la salida real con la salida esperada, y mide cuánto error tiene la red para sus
diferentes configuraciones de pesos.

El método consiste en lo siguiente, primero el usuario debe introducir dos parámetros, el primero
es la tasa de aprendizaje y definir el número de iteraciones para ir poco a poco llegar a obtener el
valor mínimo de esa función.

Neurona (nodo)

La neurona recibe entrada de todas neuronas que están en la capa pasada y nos genera una salida.
Cada conexión que tiene la neurona trae un valor x que es el valor o un vector de entrada (columna)
que nos está mandando la neurona pasada y un valor w que es un vector (fila) el peso que tiene esta
conexión, el peso es un valor que nos ayuda a brindar mayor importancia a una conexión sobre otra
y en general cada conexión tiene un valor x y un peso w un peso positivo activa la neurona y uno
negativo la inhibe. También vamos a tener un valor que se llama bias o sesgos este es un número
es cual fomenta que ciertas neuronas se active con mayor facilidad que las otras. También contamos
con una función de activación dentro de la neurona. ¿Cómo sabe la neurona si tiene que mandar
cierta información o no? Pues esto se rige mediante la siguiente ecuación de suma ponderada 𝑧 =
∑(𝑥𝑖. 𝑤𝑖) + 𝑏 después de tener este resultado aplicamos una función de activación
correspondiente esta consiste en decidir si el resultado de la suma ponderada de arriba es mayor a
cierto número entonces voy a mandar una señal a la siguiente capa.
Red neuronal convolucional (CNN)

La red neuronal convolucional (CNN) es un tipo de red neuronal artificial que está específicamente
diseñada para procesar los píxeles de la imagen y extraer características útiles de las imágenes
proporcionadas. Las CNN están siendo utilizadas en los campos del reconocimiento de imágenes y
videos, procesamiento del lenguaje natural (PNL) e inteligencia artificial.

Representación de una imagen: Una imagen es el resultado de una matriz de pixeles que se reparte
en filas y columnas, la suma de todos los píxeles repartidos en las filas y columnas es su tamaño en
pixeles.

Por ejemplo, si tomamos una fotografía digital y nuestro ordenador nos indica que su tamaño es de
1024 x 683, significa que está compuesta por 1024 columnas y 683 filas de pixeles. O lo que es lo
mismo, que su tamaño es de 1024 x 683 = 699.392 pixeles.

Detección de bordes: Cada imagen tiene bordes verticales y horizontales que realmente se
combinan para formar una imagen. La operación de convolución se usa con algunos filtros para
detectar bordes.

Operaciones Básicas en una CNN

Operación de Convolución: La idea general de la convolución es aplicar un filtro a una imagen para
extraer ciertas características o patrones, generando una imagen resultante de menor tamaño.

Convolución en escala de grises: Se tiene una imagen con su respectivo tamaño y se tiene un kernel
o filtro más pequeño, la idea de la convolución es que ese filtro se va desplazando por esa imagen
de izquierda a derecha va realizando una serie de operaciones (multiplicación punto a punto) con
los coeficientes del filtro y los pixeles de la imagen y se suman los valores para generar los resultados
o el pixel en la imagen de salida. Posteriormente se realiza la misma operación, pero se corre el filtro
una posición a la derecha. Cuando el filtro llega al final de la imagen el este baja una posición y
vuelve al principio de la imagen y vuelve y se realizan las mismas operaciones hasta que el kernel
llega la final de la imagen y se obtiene la imagen resultante.

Convolución con imágenes a color (RGB): La imagen va a tener tres planos en este caso rojo, verde
y azul. El filtro también va a tener tres planos de profundidad, la operación es igual que se hizo en
escala de grises solo que ahora los filtros se superponen a la imagen de entrada, la imagen resultado
va tener solamente un plano.

Padding: Consiste en agregar pixeles con valores iguales a cero a los bordes de la imagen original,
esto permite que al realizar la convolución la imagen resultante sea del mismo tamaño de la imagen
original.

Strides: Es el paso o desplazamiento del filtro en la imagen original, en la convolución original este
valor es igual a uno. Sin embargo también es posible hacer la convolución son Strides mayores a
uno, lo que permite tener imágenes resultantes más pequeñas. En las redes convolucionales esto
es útil, pues reduce la cantidad de datos a procesar entre una y otra capa de la red.
Capas de una red neuronal convolucional (CNN): Una red neuronal convolucional puede estar
compuesta por varias capas, tales como la capa de entrada, capa convolucional, capa de no
linealidad, capa de agrupación y capa totalmente conectada.

Capa de entrada: Es aquella que contiene los datos de la imagen, puede estar representada por una
matriz tridimensional y necesita estar representada en una matriz de una sola dimensión.

Capa de convolución: En esta capa es donde se realiza la operación de convolución, recibe como
entrada una imagen y luego aplica sobre ella un kernel que nos devuelve un mapa de características
de la imagen original. Esta capa también contiene la activación ReLU para hacer que todos los
valores negativos sean cero.

Capa de agrupación (Pooling): La capa de agrupación o reducción se usa para reducir el volumen
espacial (ancho y alto) de la imagen de entrada, no afecta la profundidad. Generalmente se coloca
después de la capa convolucional. La operación que se suele utilizar en esta capa es:

Max-pooling: Aquí la imagen es dividida en el mismo tamaño y para cada región se extrae el valor
máximo que corresponderá a un pixel de la imagen resultante.

Average-pooling: La imagen es dividida en el mismo tamaño para cada región y el filtro toma todos
los valores que caen dentro del filtro, saca el promedio y este será asignado a la matriz resultante.

Capa totalmente conectada (Fully connected): Esta capa se conecta neuronas de una capa con
neuronas de otra capa, funciona como clasificador en toda la red neuronal convolucional. Esta capa
implica los pesos, sesgos y neuronas.

Capa lógica Softmax: Es la última capa de la red neuronal convolucional y es utilizada para generar
una clasificación o predicción.

Capa de salida: Es capa que recibe información de las capas anteriores para poder tomar una
decisión y dar un resultado.

También podría gustarte