PFC - 2024 - 2 (3) - 11-27

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

1.2.

3 Situacion problematica o Antecedentes Investigativos

Antecedentes Nacionales

Evaluación de Modelos de Redes Neuronales Convolucionales para la Clasifi-


cación de Lesiones Cutáneas con Melanoma (Salazar Br. ,2024)

Este trabajo, titulado en las Redes Neuronales Convolucionales para la Clasificación de


Lesiones Cutáneas con Melanoma, se enfoca en la evaluación de diferentes arquitecturas
de redes neuronales, incluyendo InceptionV3, MobileNetV2 y DenseNet201, para clasificar
imágenes de melanoma. Utiliza transferencia de aprendizaje y compara el desempeño de
estas redes en el conjunto de datos HAM10000, obteniendo una mejor clasificación con el
modelo InceptionV3. Los autores proponen un sistema de clasificación de Melanoma, el
cual incluye tres principales componentes: Preprocesamiento de la imagen ,Aumento de
datos y reentrenamiento de los modelos.
a.Preprocesamieto de las imagenes
El preprocesamiento de imágenes es un paso esencial en la clasificación automática de
lesiones cutáneas, ya que ayuda a mejorar la calidad de las imágenes y facilita la extrac-
ción de características relevantes para los modelos de aprendizaje automático. Aquí se
realiza una serie de operaciones para minimizar el impacto de los artefactos presentes en
las imágenes, tales como pelos, esquinas oscuras, burbujas y marcas de tinta, que pueden
llevar a errores en la clasificación.
Espacio de color YUV :
La imagen en formato RGB se convierte al espacio de color YUV, donde se separan las
componentes cromáticas. Esto facilita la detección de oclusiones y la segmentación pos-
terior.
Detección de oclusiones :
Se identifica cualquier elemento no relevante para el diagnóstico, como vellos o burbujas,
utilizando el canal de luminancia para generar una máscara de desviaciones. Esta más-
cara se aplica para retocar las imágenes, eliminando elementos que puedan interferir con
la detección de la lesión.

4
Retoque:
Una vez detectadas las oclusiones, las imágenes se retocan para eliminar estos artefactos.
Este paso mejora la precisión del modelo al reducir el ruido en los datos.
Filtro bilateral :
Se utiliza para reducir el ruido sin perder detalles importantes en la imagen. Es una
técnica común en imágenes ruidosas que tienen variaciones bruscas de contraste y color.
Fuzz y C Means :
Un algoritmo de segmentación que clasifica los píxeles de la imagen en diferentes clases
basadas en su proximidad y similitud de color. Es útil para identificar la región de la
lesión en la imagen.
Supresión de esquinas :
Dado que el acoplamiento de las lentes del sistema de adquisición de imágenes puede
generar esquinas no deseadas, se emplea un método para eliminar estas regiones no rele-
vantes, mejorando la segmentación.
Cierre :
Se realiza una operación de cierre morfológico, combinando dilatación y erosión, para
mejorar la definición de los bordes de la lesión en la imagen procesada.
b.Aumentos de datos
El aumento de datos es una técnica utilizada para mejorar la capacidad de generalización
de los modelos de aprendizaje automático. Se basa en la creación de múltiples versiones
modificadas de las imágenes de entrenamiento, lo que permite evitar el sobreajuste al
trabajar con un conjunto de datos más diverso y robusto. En este proyecto, se utiliza la
librería TensorFlow para implementar el aumento de datos, lo que genera variaciones de
las imágenes originales a través de diferentes transformaciones.
Técnicas de aumento de datos utilizadas:
Rotación: Genera imágenes rotadas en diferentes ángulos, ampliando la variabilidad en
la orientación de las imágenes.
Desplazamientos horizontales y verticales: Desplaza las imágenes en los ejes horizontal
y vertical, permitiendo que el modelo aprenda a clasificar lesiones aunque no estén cen-

5
tradas en la imagen.
Zoom: Se aplica un zoom aleatorio a las imágenes, lo que permite al modelo reconocer
lesiones a diferentes escalas.
Giro horizontal: Voltea las imágenes horizontalmente, lo que simula lesiones observadas
desde diferentes perspectivas.
c.Reentrenamiento de los modelos:
Determinación de hiperparámetros: En este subapartado se detallan los hiperparámet-
ros utilizados en los modelos seleccionados, tales como InceptionV3, MobileNetV2 y
DenseNet201. Los hiperparámetros incluyen:

Table 1.1: Comparación de hiperparámetros entre InceptionV3, MobileNetV2 y


DenseNet201
Hiperparámetros InceptionV3 MobileNetV2 DenseNet201
No. de épocas 25 25 25
No. de capas intermedias 2 2 2
No. de neuronas capa 1 1024 1024 1024
No. de neuronas capa 2 512 512 512
Función de activación en capas intermedias ReLU ReLU ReLU
Función de activación en la capa de salida Softmax Softmax Softmax
Tasa de aprendizaje 0.001 0.001 0.001
Optimizador Adam Adam Adam

Según el autor, los resultados de exactitud (accuracy) obtenidos en los modelos, indican
que el modelo basado en InceptionV3 alcanzó la mejor exactitud, con un 80.5%. Este
desempeño es superior al de los otros modelos, como DenseNet201, con una exactitud de
79.3%, y MobileNetV2, con 76.5%.

Arquitectura de Red Neuronal Convolucional para Diagnóstico de Cáncer de


Piel (Tejada Layme & Gonzales Chama, 2020).

La tesis "Arquitectura de Red Neuronal Convolucional para Diagnóstico de Cáncer de


Piel" explora el uso de una nueva arquitectura de red neuronal convolucional para la
detección de cáncer de piel, enfocándose en la clasificación binaria de melanoma maligno
y benigno. El diseño se basa en una prueba de capas de convolución y max pooling.
La convolución realizada preserva la relación entre los píxeles, aprendiendo las carac-
terísticas de la imagen mediante pequeños cuadros de datos de entrada. La convolución

6
es una operación matemática que toma dos entradas: una matriz de imágenes y un filtro.
Para reducir el número de parámetros, se utiliza la técnica de Max Pooling, la cual
selecciona el elemento más grande o la característica más importante. Al aplicar un Max
Pool de 2x2 con un stride de 2 por defecto, la matriz de salida se reduce, manteniendo
las características clave.
Posteriormente, se utiliza la capa Flatten para convertir la salida multidimensional de
las capas convolucionales y de pooling en un vector unidimensional, permitiendo que los
datos sean procesados por las capas completamente conectadas. Estas capas, conocidas
como Fully Connected, permiten a la red aprender combinaciones no lineales de las car-
acterísticas extraídas, mejorando la capacidad de clasificación y la precisión del modelo.
Este enfoque es común en las arquitecturas de redes neuronales, ya que facilita la transi-
ción de la extracción de características a la toma de decisiones finales.

Figure 1.1: CNN de Tejada Layme & Gonzales Chama, 2020.

Métricas de Evaluación: En este trabajo se han utilizado diversas métricas para evaluar
el rendimiento del modelo. La exactitud mide el número de predicciones correctas sobre
el total de muestras. La sensibilidad se refiere a la proporción de verdaderos positivos,
importante para identificar correctamente a los pacientes con la enfermedad. La precisión
calcula la fracción de predicciones positivas correctas, mientras que la especificidad mide
cuántas veces se identifican correctamente los negativos verdaderos. Estas métricas per-
miten evaluar el desempeño del sistema de detección de melanomas, proporcionando un

7
análisis completo del modelo.

Capas Precisión Recall F1-Score


1 0.836576 0.853175 0.844793
2 0.893216 0.903114 0.898137
3 0.973301 0.970012 0.971653
4 0.921554 0.910789 0.916139
5 0.859927 0.811364 0.834939

Table 1.2: CNN de Tejada Layme & Gonzales Chama, 2020

Algoritmo para diagnóstico de melanomas aplicando un modelo híbrido entre


una red neuronal convolucional y random forest (2023)

La tesis titulado "Modelo Tuco - Algoritmo para diagnóstico de melanomas aplicando un


modelo híbrido entre una red neuronal convolucional y random forest", propone un enfoque
híbrido para la clasificación de melanomas utilizando una combinación de una red neuronal
convolucional (CNN) y el algoritmo Random Forest. Este modelo fue desarrollado con el
propósito de mejorar la eficiencia en la clasificación de lunares benignos y malignos. La
CNN utilizada por el autor fue la ResNet50, seleccionada por su capacidad para extraer
características relevantes de las imágenes de lunares, mientras que Random Forest se
encargó de la clasificación final. El trabajo concluye que el modelo híbrido presenta una
mayor precisión en la clasificación de melanomas comparado con los modelos individuales
utilizados por separado.

Algoritmo para el Diagnóstico Preliminar de Melanoma Cutáneo Basado en


Redes Neuronales, Naive Bayes y Árboles de Decisión (2020)

La tesis "Algoritmo para el Diagnóstico Preliminar de Melanoma Cutáneo Basado en Re-


des Neuronales, Naive Bayes y Árboles de Decisión" propone el desarrollo de un algoritmo
fusionado que combina estos tres métodos de clasificación para mejorar el diagnóstico de
melanoma. El estudio utilizó 3,000 imágenes del repositorio ISIC y concluyó que el al-
goritmo fusionado obtuvo mejores resultados que Naive Bayes y Redes Neuronales, pero
no superó a Árboles de Decisión en términos de precisión. El algoritmo fusionado mostró
una precisión del 94.73% y una sensibilidad del 96.76%. Este enfoque destaca por aplicar

8
técnicas de data augmentation para mejorar el rendimiento del modelo ante un conjunto
de datos desbalanceado, utilizando algoritmos de sobremuestreo para las clases minori-
tarias, como SMOTE. Además, implementa un análisis de componentes principales (PCA)
para reducir la dimensionalidad de las características extraídas por la CNN, mejorando
la eficiencia computacional del sistema.

Método Alternativo Basado en un Sistema Inteligente para Identificar Enfer-


medades de la Piel (Reátegui A. 2020)

El trabajo de investigación se enfoca en la creación de un sistema basado en inteligencia


artificial para la detección de enfermedades dermatológicas, específicamente el impétigo y
la psoriasis. Utiliza redes neuronales convolucionales (CNN) y procesamiento de imágenes
en un sistema aplicado para una población vulnerable en Iquitos, Perú.La investigación
utiliza CNNs para analizar un conjunto de 228 imágenes de enfermedades específicas,
logrando una sensibilidad y especificidad del 93%, lo que sugiere una alta precisión en el
diagnóstico automatizado. Este enfoque podría servir de referencia para la configuración
y entrenamiento de la CNN en tu sistema de detección de lesiones cutáneas. El sistema
propuesto es una alternativa para facilitar el diagnóstico en zonas con acceso limitado a
servicios médicos, un contexto similar al de tu proyecto. Integrar esta perspectiva en tu
proyecto podría fortalecer la justificación social y ampliar el alcance práctico del sistema
de detección de lesiones cutáneas.

Antecedente local

Tesis de la Universidad Nacional Mayor de San Marcos (2021)

En este estudio titulado "Sistema Inteligente Basado en Redes Neuronales para la Identifi-
cación de Cáncer de Piel de Tipo Melanoma en Imágenes de Lesiones Cutáneas", el autor
desarrolla un sistema inteligente basado en redes neuronales profundas entrenadas con el
conjunto de datos SIIM-ISIC. El sistema logró una precisión del 92.85% en la clasificación
de imágenes de melanoma.

9
Antecedentes Internacionales

Skin cancer detection based on deep learning and entropy to detect outlier
samples (Pacheco, Ali, & Trappenberg, 2019)

En este artículo, los autores describen y proponen el uso de Redes Neuronales Convolu-
cionales para la detección de cáncer de piel en imágenes del conjunto de datos de la
competencia ISIC del año 2019. En este conjunto de datos, existen nueve categorías, sin
embargo, uno de ellas es un valor atípico y no está presente en el conjunto de datos de
entrenamiento. Para abordar este desafío, los autores evalúan el desempeño de 13 mod-
elos de redes neuronales convolucionales (CNN), con el fin de elaborar un método para
manejar la categoría de valor atípico y proponerun modelo de clasificación para la meta
data de imágenes. Los autores empiezan su investigación analizando el conjunto de datos
ISIC (International Skin ImagingCollaboration) del 2019. La meta data está compuesta
de la edad, sexo y región de la lesión cutánea por cada paciente. El objetivo final definido
por los autores, es proporcionar el diagnóstico para las imágenes de dermatoscopia entre
nueve diferentes categorías de diagnóstico: melanoma (MEL), melanocítico nevo (NV),
carcinoma de células basales (BCC), queratosis actínica (AK), queratosis benigna (BKL),
dermatofibroma (DF), lesión vascular (VASC), carcinoma de células escamosas (SCC) y
otros (UNK). La clase UNK es la categoría atípica, que no está presente en el conjunto
de datos de entrenamiento (ver Tabla 1.3).

Table 1.3: Distribución de cantidad de imágenes por cada categoría en el conjunto de


datos de entrenamiento.
Diagnostic Number of samples
MEL 452
NV 12875
BCC 3323
AK 867
BKL 2624
DF 239
VASC 253
SCC 628
UNK 0
Total 25331

El método propuesto en este artículo se encuentra dividido en tres pasos: clasificación

10
de cáncer de piel, manejo de la clase atípica, inclusión de la meta-data.
a. Clasificación de cáncer piel
Los autores proponen evaluar el desempeño de 13 arquitecturas de Redes Neuronales Con-
volucionales populares en tareas de clasificación, las cuales son: SENet,PNASNet, Incep-
tionV4, ResNet-50, ResNet-101, ResNet-152, DenseNet-121, DenseNet-169, DenseNet201,
MobileNetV2. GoogleNetInception, VGG-16 y VGG-19. Para todos los modelos se man-
tuvo los pesos con entrenamiento previo en ImageNet. En la configuración de hiper-
parametros, los autores usaron 150 epochs, utilizando la optimizaciónAdam, con una tasa
de aprendizaje inicial (learningrate) igual a 0,0001 y un tamaño de lote (batchsize) igual
a 32. La tasa de aprendizaje estuvo programada para reducirse en un factor de 0,2 si los
modelos no logran disminuir la pérdida de precisión en validación (validationloss) durante
10 epochs. Finalmente, los autores también utilizaron la detención anticipada (earlystop-
ping), también basada en la pérdida de precisión de validación acumulada durante 15
epochs. Todas las imágenes se redimensionaron al tamaño 229×229 para el modelo In-
ceptionV4, 331×331 para PNASnet y 224× 24 para el resto de arquitecturas. Además, los
autores aplicaron las siguientes operaciones de preprocesamiento de imágenes: ajuste del
brillo, contraste, saturación y tono, además incluyeron el método “Data Augmentation”
con rotaciones horizontales y verticales, y traslaciones. Los autores agregaron 2 modelos
más a evaluar mediante el método de Ensamblado, además de las 13 arquitecturas antes
mencionadas. El primero está compuesto por el ensamblado de los 13 modelos. Mientras
que el segundo ensamblado consta de los mejores tres modelos según la precisión equili-
brada.
b. Manejo de la clase atípica
Para detectar cualquier tipo de valor atípico, los autores proponen un enfoque basado en la
entropía para detectar la clase desconocida. Los clasificadores usados por los autores gen-
eran las probabilidades para cada clase usando la función softmax. Básicamente, cuando
un clasificador tiene dudas sobre una nueva muestra, y puede ser un valor atípico, asigna
un valor para la probabilidad de diferentes clases. Por otro lado, cuando el clasificador
está seguro de su decisión, asigna una probabilidad alta para una sola clase. Es decir, el

11
valor de entropía del primer caso es mayor que la del último caso, con esta premisa se
construye una categoría adicional.
c. Inclusión de meta-data
Los metadatos se componen de tres variables: la edad del paciente, la región del cuerpo
en la que se produce la lesión y el sexo del paciente. Los autores desarrollaron un modelo
de Redes Bayesianas y árbol de decisiones para estimar la probabilidad de cada categoría
a partir de las variables mencionadas. Durante la evaluación, en caso exista valores nulos
en la meta-data, se calcula la probabilidad solo para los datos disponibles. Por ejemplo, si
la edad no es nula, pero falta la variable de región, se realiza el algoritmo considerando las
probabilidades de la variable de región igual a cero. Para la evaluación de los modelos, los
autores dividieron el conjunto de datos en 80 % para entrenamiento, 10% para validación
y 10% para evaluación.

Table 1.4: Resultado del desempeño de cada modelo, en términos de precisión equili-
brada.
Model Balanced accuracy
DenseNet 121 0.811
DenseNet 169 0.842
DenseNet 201 0.879
GoogleNet 0.865
InceptionV4 0.887
MobileNetV2 0.853
PNASNet 0.894
ResNet 50 0.876
ResNet 101 0.888
ResNet 152 0.901
SENet 0.868
VGG 16 0.837
VGG 19 0.825
Ensemble 1 0.883
Ensemble 1 0.897
Ensemble 1 + Meta-data 0.891
Ensemble 2 + Meta-data 0.901

12
A comparative study of deep learning architectures on melanoma detection(Kassani
& Hosseinzadeh, 2019)

En este artículo, se evalúa el desempeño de varias arquitecturas de Redes Neuronales Con-


volucionalesen el análisis de imágenes de lesiones cutáneas. En vista de mejorar la calidad
de las imágenes se emplea un preprocesamiento de las mismas. Los autores hacen uso de
la metodología “Data Augmentation”, como técnicas de giros horizontales y verticales para
aminorar el sesgo de la distribución de clases. Los autores hacen un estudio comparativo
de artículos similares al objeto de estudio, haciendo un énfasis en resaltar que aplicando es
fundamental la aplicación de técnicas de preprocesamiento y “Data Augmentation”, para
obtener un mejor desempeño evaluando la precisión. Las consideraciones al desarrollar el
modelo propuesto en este artículo,son las siguientes:
1. Se hace uso de dos capas completamente conectadas para combinar el mapeo de las
variables de las capas intermedias de las Redes Neuronales Convolucionales. Para ambas
capas, se emplea el método “Dropout” que evita el problema de sobreajuste. Además,
se utiliza la estrategia de “Transfer Learning” evaluando cada una de las siguientes ar-
quitecturas: ALEXNET, RESNET50, VGG16, VGG19, XCEPTION. Para minimizar la
pérdida de entrenamiento, la técnica de regularización “L2” (Ridge Regression) también
se emplea para la tarea de clasificación.
2. Para reducir la heterogeneidad de los datos y, por lo tanto, la mejora en el desempeño
de la clasificación, se hace uso de técnicas de Preprocesamiento, entre ellas: la mejora
del contraste, la transformación del espacio de color y un tipo específico de corrección de
iluminación.
3. Los autores acotan que el conjunto de datos de estudios presenta un sesgo significativo.
Por esta razón, para equilibrar el conjunto de datos, proponen un método de “Oversam-
pling” para aumentar ejemplos de clases minoritarias. Para evaluar el desempeño de cada
una de las arquitecturas de Redes Neuronales Convolucionales usadas en este proyecto,
emplean 4 métricas de evaluación con la metodología “Data Augmentation”) presenta un
mejor desempeño en las métricas, superando así a las arquitecturas AlexNet, Xception,
VGG16 y VGG19 con una exactitud de clasificación del 92.08 %.

13
Table 1.5: Resultados de diferentes métodos
Methods Precision Recall F-Score ACC
AlexNet 0.7717 0.7873 0.7726 0.7853
AlexNet* 0.8421 0.8125 0.8231 0.8045
ResNet50 0.8652 0.8663 0.8537 0.8637
ResNet50* 0.9373 0.9253 0.9274 0.9208
VGGNet16 0.8442 0.8447 0.8433 0.8436
VGGNet16* 0.907 0.9032 0.9061 0.8836
VGGNet19 0.8468 0.8457 0.8436 0.8461
VGGNet19* 0.8855 0.8882 0.8838 0.8870
Xception 0.4472 0.6633 0.5346 0.6629
Xception* 0.9019 0.9057 0.9041 0.9030

Skin Lesion Classification Using Convolutional Neural Network With Novel


Regularizer (Albahar, 2019)

Marwan Ali Albahar (2019), de la Ibn Rushd College for Management Science en Abha,
Arabia Saudita, propuso un modelo basado en redes neuronales convolucionales (CNN)
con la inclusión de un regularizador innovador para la clasificación de lesiones cutáneas.
Este enfoque tiene como objetivo mejorar la precisión de la clasificación al reducir el
sobreajuste y aumentar la generalización del modelo al clasificar lesiones cutáneas en
categorías benignas y malignas.
a.Diseño y Entrenamiento del Modelo CNN
Para entrenar el modelo de Red Neuronal Convolucional (CNN), todas las imágenes
del conjunto de datos fueron redimensionadas a 300x300 píxeles, permitiendo preservar
la información en las imágenes y reducir el costo computacional. Durante el preproce-
samiento, se aplicó una transformación de ley de potencia para mejorar la calidad visual
de las imágenes, según la ecuación:

s = c · rγ (1.1)

donde r representa el valor del píxel de entrada y γ es un parámetro ajustable que


afecta los resultados de salida s, tal como se muestra en la Figura 3 del artículo.
El modelo CNN construido por el autor toma como entrada imágenes de tamaño 300×
300 × 3, donde ’3’ representa los canales de color (RGB). La primera capa convolucional

14
emplea 32 filtros de convolución de tamaño 3 × 3, produciendo 32 canales de tamaño
298 × 298. La segunda capa convolucional aplica 64 filtros de tamaño 3 × 3, generando 64
canales de tamaño 296 × 296. En cada capa convolucional se incorpora un regularizador
novel para reducir la complejidad del modelo penalizando los valores de los filtros, lo cual
disminuye el riesgo de sobreajuste.
Después de estas capas convolucionales, se aplicó una capa de agrupamiento máximo
(*max pooling*) de tamaño 2 × 2 para preservar características invariantes en la salida.
A continuación, se añadió una capa de dropout para mitigar el sobreajuste y mejorar la
precisión del modelo. La salida se aplanó y conectó a una capa totalmente conectada
de 128 neuronas, seguida de la capa de salida correspondiente a las clases de las lesiones
cutáneas.

Figure 1.2: Arquitectura de Albahar, 2019.

b.Proceso de Validación y Resultados


El modelo fue entrenado durante 100 épocas usando 5,600 imágenes y validado con
2,400 imágenes. Durante el proceso de validación, los parámetros de las capas convolu-
cionales se mantuvieron constantes para verificar su precisión sin necesidad de ajustes
adicionales. El modelo logró una precisión media del 97.49% tras completar las 100
épocas de entrenamiento.
Para abordar el problema de datos desequilibrados, se utilizó la métrica de precisión
ponderada, definida como el promedio de la tasa de verdaderos positivos obtenida en cada
clase. La Figura 4 muestra las variaciones en la precisión de entrenamiento y prueba a lo
largo de las épocas. Con un parámetro de regularización de λ = 0.02, el modelo presentó
una alta precisión en la clasificación de lesiones cutáneas. Además, se empleó la curva

15
ROC como herramienta para evaluar la sensibilidad (tasa de verdaderos positivos) del
clasificador.

Figure 1.3: ROC de (Albahar, 2019).

Deep CNN and Data Augmentation for Skin Lesion Classification (Pham,
Luong, Visani, & Dung, 2018)

En este artículo, los autores proponen demostrar el uso de la técnica “Data Augmenta-
tion”en imágenes parasuperar el problema de la limitación de datos y examinar la in-
fluencia de diferentes números de muestras usando la técnica de aumento,evaluando el
rendimiento de diferentes clasificadores. El sistema de clasificación propuesto se evalúa
utilizando el conjunto de datos de lesiones cutáneas “ISBI Challenge 2017”, el cual contiene
600 imágenes para evaluación y 6162 imágenes de entrenamiento. Los autores proponen
un sistema de clasificación de Melanoma, el cual incluye tres principales componentes: mó-
dulo de Data Augmentation, extracción de características (red neuronal) y clasificación
de Data Augmentation.
a) Data Augmentation En el sistema de clasificación propuesta por los autores, se apli-
caron tres tipos de ramas de “Data Augmentation”.
- Geométrica: Las imágenes de entrada se transformaron para generar nuevas muestras
con la misma etiqueta del original, mediante una combinación aleatoria de giros horizon-
tales y verticales.

16
- Color: Las imágenes de las lesiones cutáneas fueron obtenidas de diferentes fuentes y
fueron tomadas por diferentes tipos de dispositivos. Por tanto, los autores enfatizan en la
importancia de normalizar los colores de las imágenes para el entrenamiento (brillo, tono
y contraste).
- Transformaciones basadas en conocimiento de especialistas: En el aprendizaje au-
tomático, las transformaciones afines, como el corte, la distorsión y el escalado, deforman
aleatoriamente los datos de trazos para la clasificación de imágenes.
Por lo tanto, la deformación es muy adecuada para aumentar los datos para mejorar el
rendimiento y mitigar el sobreajuste de la clasificación del melanoma.
b) Extracción de características
Los autores usaron la arquitectura de red neuronal convolucional InceptionV4 para el pro-
ceso de extracción de características de las imágenes. Inception V4 es una arquitectura
conocida desarrollada en base a la plataforma GoogLeNet, el tamaño de la imagen de
entrada es de 299x299 píxeles, la salida depende de cuántas clases se pretenda predecir.
En el modelo pre-entrenado utilizado en esta investigación, el resultado son las 1000 cat-
egorías (ImageNet). Sin embargo, en este estudio se usa la última versión de GoogLeNet
(Inception V4); se elimina la capa completamente conectada y se usa la capa de agru-
pación promedio como capa final.
c) Clasificación con Data Augmentation
En este estudio, los autores analizan 3 clasificadores para responder a la pregunta de si
aplicando“Data Augmentation” mejora el rendimiento de la clasificación del melanoma.
En el proceso de evaluación, todos estos clasificadores se evalúan con el mismo conjunto de
datos de prueba en tres tipos de aumento de datos (Sin aumento de datos =“NO DAUG”,
Aumento en 50 muestras en cada imagen –“DAUG 50”, Aumenta en 100 muestras en cada
imagen –“DAUG 100”).
Los resultados de la implementación de la propuesta, aplicando la técnica de “Data Aug-
mentation” con aumento de 100 muestras en cada imagen en evaluación, logro un desem-
peño de 89.2 % en precisión. Se observa una diferencia de 3% comparando con el resultado
de no aplicar “Data Augmentation” en la evaluación del modelo.

17
Table 1.6: . Resultado del desempeño de los clasificadores propuestos. AUC: Área Bajo la
Curva, AP: Precisión Promedio, SEN: Sensibilidad, SPC: Especificidad, ACC: Exactitud,
PPV: Valor Predictivo Positivo
Classifier AUC AP SEN SPC ACC PPV
ISBI TOP 3
TOP #1 0.868 0.710 0.735 0.851 0.828 –
TOP #2 0.856 0.654 0.103 0.998 0.850 –
TOP #3 0.874 0.715 0.547 0.950 0.872 –
DAUG 100
NN 0.892 0.739 0.556 0.971 0.890 0.823
SVM 0.773 0.547 0.351 0.965 0.890 0.800
RF 0.751 0.530 0.530 0.973 0.887 0.827
DAUG 50
NN 0.882 0.736 0.598 0.950 0.882 0.745
SVM 0.777 0.527 0.529 0.980 0.880 0.745
RF 0.757 0.526 0.547 0.967 0.887 0.813
NO DAUG
NN 0.862 0.696 0.581 0.942 0.872 0.780
SVM 0.767 0.527 0.529 0.980 0.880 0.750
RF 0.746 0.517 0.521 0.971 0.883 0.813

Clasificación de lesiones en la piel mediante redes neuronales convolucionales


y aprendizaje profundo (García C., 2020)

En esta línea, se ha desarrollado un clasificador basado en una red convolucional Efficient-


NetB0, variando distintos parámetros de entrenamiento y de la propia red hasta alcanzar
un modelo final. Esta red es capaz de clasificar imágenes de 8 patologías principales,
entre las que se encuentran los principales tipos de cáncer de piel y otras enfermedades.
Además, consta de una clase adicional que representa todas las patologías no incluidas en
las 8 anteriores, de forma que el modelo pueda reconocer cuándo una imagen es descono-
cida.
Entrada de datos, preprocesado y aumento:
En este trabajo se ha utilizado la red EfficientNetB0. Dentro de las CNN más usadas para
transferencia de aprendizaje, la familia de redes EfficientNet es una de las más recientes.
Estas redes tienen dos características principalmente destacables: la primera es que son
una de las redes más precisas hasta el momento, y la segunda es que logran esta gran

18
precisión con un número de parámetros mucho menor en comparación con otras redes
frecuentemente utilizadas, como por ejemplo las ResNet. Por lo tanto, dado que nuestros
recursos computacionales son limitados,el autor toma en cuenta que esta familia Efficient-
Net y, en particular, la red B0, ya que es la que menos parámetros entrenables tiene.En
esta línea, se ha desarrollado un clasificador basado en una red convolucional Efficient-
NetB0, variando distintos parámetros de entrenamiento y de la propia red hasta alcanzar
un modelo final. Esta red es capaz de clasificar imágenes de 8 patologías principales,
entre las que se encuentran los principales tipos de cáncer de piel y otras enfermedades.
Además, consta de una clase adicional que representa todas las patologías no incluidas
en las 8 anteriores, de forma que el modelo pueda reconocer cuándo una imagen es de-
sconocida. El archivo de imágenes de esta organización es, actualmente, el mayor banco
de imágenes de este tipo, convirtiéndose en el principal referente de datos para la inves-
tigación de nuevos métodos automáticos de detección de estas enfermedades. Por esta
razón, la base de imágenes de este trabajo será el dataset publicado en la competencia
ISIC 2019.

Modelo TA Precisión Test Sens. UNK


A 1e−3 0.630 0.056
B 1e−4 0.681 0.333
C 1e−5 0.684 0.278

Table 1.7: Resultados de los Modelos

Aumento de capas entrenables


Se incrementó el número de capas entrenables de 3 a 9, lo que mejoró notablemente la
sensibilidad de los modelos D y E. Este cambio permitió que la red aprendiera de manera
más efectiva al incluir capas adicionales de la red convolucional.

Modelo Capas descongeladas TA Precisión Test Sens. UNK


B 3 1e−4 0.681 0.333
D 9 1e−4 0.735 0.556
C 3 1e−5 0.684 0.278
E 9 1e−5 0.710 0.463

Table 1.8: Resultados de los Modelos con Capas

Regularizacion L2

19
La regularización L2 se introdujo con un valor de 0.01, lo que resultó en una disminución
de la sensibilidad en los modelos F y G. Esta técnica penaliza los pesos

Modelo TA L2 Precisión Test Sens. UNK


D 1e−4 - 0.735 0.556
F 1e−4 0.01 0.713 0.481
E 1e−5 - 0.710 0.463
G 1e−5 0.01 0.711 0.407

Table 1.9: Resultados de los Modelos con L2 Regularización

20

También podría gustarte