PFC - 2024 - 2 (3) - 11-27
PFC - 2024 - 2 (3) - 11-27
PFC - 2024 - 2 (3) - 11-27
Antecedentes Nacionales
4
Retoque:
Una vez detectadas las oclusiones, las imágenes se retocan para eliminar estos artefactos.
Este paso mejora la precisión del modelo al reducir el ruido en los datos.
Filtro bilateral :
Se utiliza para reducir el ruido sin perder detalles importantes en la imagen. Es una
técnica común en imágenes ruidosas que tienen variaciones bruscas de contraste y color.
Fuzz y C Means :
Un algoritmo de segmentación que clasifica los píxeles de la imagen en diferentes clases
basadas en su proximidad y similitud de color. Es útil para identificar la región de la
lesión en la imagen.
Supresión de esquinas :
Dado que el acoplamiento de las lentes del sistema de adquisición de imágenes puede
generar esquinas no deseadas, se emplea un método para eliminar estas regiones no rele-
vantes, mejorando la segmentación.
Cierre :
Se realiza una operación de cierre morfológico, combinando dilatación y erosión, para
mejorar la definición de los bordes de la lesión en la imagen procesada.
b.Aumentos de datos
El aumento de datos es una técnica utilizada para mejorar la capacidad de generalización
de los modelos de aprendizaje automático. Se basa en la creación de múltiples versiones
modificadas de las imágenes de entrenamiento, lo que permite evitar el sobreajuste al
trabajar con un conjunto de datos más diverso y robusto. En este proyecto, se utiliza la
librería TensorFlow para implementar el aumento de datos, lo que genera variaciones de
las imágenes originales a través de diferentes transformaciones.
Técnicas de aumento de datos utilizadas:
Rotación: Genera imágenes rotadas en diferentes ángulos, ampliando la variabilidad en
la orientación de las imágenes.
Desplazamientos horizontales y verticales: Desplaza las imágenes en los ejes horizontal
y vertical, permitiendo que el modelo aprenda a clasificar lesiones aunque no estén cen-
5
tradas en la imagen.
Zoom: Se aplica un zoom aleatorio a las imágenes, lo que permite al modelo reconocer
lesiones a diferentes escalas.
Giro horizontal: Voltea las imágenes horizontalmente, lo que simula lesiones observadas
desde diferentes perspectivas.
c.Reentrenamiento de los modelos:
Determinación de hiperparámetros: En este subapartado se detallan los hiperparámet-
ros utilizados en los modelos seleccionados, tales como InceptionV3, MobileNetV2 y
DenseNet201. Los hiperparámetros incluyen:
Según el autor, los resultados de exactitud (accuracy) obtenidos en los modelos, indican
que el modelo basado en InceptionV3 alcanzó la mejor exactitud, con un 80.5%. Este
desempeño es superior al de los otros modelos, como DenseNet201, con una exactitud de
79.3%, y MobileNetV2, con 76.5%.
6
es una operación matemática que toma dos entradas: una matriz de imágenes y un filtro.
Para reducir el número de parámetros, se utiliza la técnica de Max Pooling, la cual
selecciona el elemento más grande o la característica más importante. Al aplicar un Max
Pool de 2x2 con un stride de 2 por defecto, la matriz de salida se reduce, manteniendo
las características clave.
Posteriormente, se utiliza la capa Flatten para convertir la salida multidimensional de
las capas convolucionales y de pooling en un vector unidimensional, permitiendo que los
datos sean procesados por las capas completamente conectadas. Estas capas, conocidas
como Fully Connected, permiten a la red aprender combinaciones no lineales de las car-
acterísticas extraídas, mejorando la capacidad de clasificación y la precisión del modelo.
Este enfoque es común en las arquitecturas de redes neuronales, ya que facilita la transi-
ción de la extracción de características a la toma de decisiones finales.
Métricas de Evaluación: En este trabajo se han utilizado diversas métricas para evaluar
el rendimiento del modelo. La exactitud mide el número de predicciones correctas sobre
el total de muestras. La sensibilidad se refiere a la proporción de verdaderos positivos,
importante para identificar correctamente a los pacientes con la enfermedad. La precisión
calcula la fracción de predicciones positivas correctas, mientras que la especificidad mide
cuántas veces se identifican correctamente los negativos verdaderos. Estas métricas per-
miten evaluar el desempeño del sistema de detección de melanomas, proporcionando un
7
análisis completo del modelo.
8
técnicas de data augmentation para mejorar el rendimiento del modelo ante un conjunto
de datos desbalanceado, utilizando algoritmos de sobremuestreo para las clases minori-
tarias, como SMOTE. Además, implementa un análisis de componentes principales (PCA)
para reducir la dimensionalidad de las características extraídas por la CNN, mejorando
la eficiencia computacional del sistema.
Antecedente local
En este estudio titulado "Sistema Inteligente Basado en Redes Neuronales para la Identifi-
cación de Cáncer de Piel de Tipo Melanoma en Imágenes de Lesiones Cutáneas", el autor
desarrolla un sistema inteligente basado en redes neuronales profundas entrenadas con el
conjunto de datos SIIM-ISIC. El sistema logró una precisión del 92.85% en la clasificación
de imágenes de melanoma.
9
Antecedentes Internacionales
Skin cancer detection based on deep learning and entropy to detect outlier
samples (Pacheco, Ali, & Trappenberg, 2019)
En este artículo, los autores describen y proponen el uso de Redes Neuronales Convolu-
cionales para la detección de cáncer de piel en imágenes del conjunto de datos de la
competencia ISIC del año 2019. En este conjunto de datos, existen nueve categorías, sin
embargo, uno de ellas es un valor atípico y no está presente en el conjunto de datos de
entrenamiento. Para abordar este desafío, los autores evalúan el desempeño de 13 mod-
elos de redes neuronales convolucionales (CNN), con el fin de elaborar un método para
manejar la categoría de valor atípico y proponerun modelo de clasificación para la meta
data de imágenes. Los autores empiezan su investigación analizando el conjunto de datos
ISIC (International Skin ImagingCollaboration) del 2019. La meta data está compuesta
de la edad, sexo y región de la lesión cutánea por cada paciente. El objetivo final definido
por los autores, es proporcionar el diagnóstico para las imágenes de dermatoscopia entre
nueve diferentes categorías de diagnóstico: melanoma (MEL), melanocítico nevo (NV),
carcinoma de células basales (BCC), queratosis actínica (AK), queratosis benigna (BKL),
dermatofibroma (DF), lesión vascular (VASC), carcinoma de células escamosas (SCC) y
otros (UNK). La clase UNK es la categoría atípica, que no está presente en el conjunto
de datos de entrenamiento (ver Tabla 1.3).
10
de cáncer de piel, manejo de la clase atípica, inclusión de la meta-data.
a. Clasificación de cáncer piel
Los autores proponen evaluar el desempeño de 13 arquitecturas de Redes Neuronales Con-
volucionales populares en tareas de clasificación, las cuales son: SENet,PNASNet, Incep-
tionV4, ResNet-50, ResNet-101, ResNet-152, DenseNet-121, DenseNet-169, DenseNet201,
MobileNetV2. GoogleNetInception, VGG-16 y VGG-19. Para todos los modelos se man-
tuvo los pesos con entrenamiento previo en ImageNet. En la configuración de hiper-
parametros, los autores usaron 150 epochs, utilizando la optimizaciónAdam, con una tasa
de aprendizaje inicial (learningrate) igual a 0,0001 y un tamaño de lote (batchsize) igual
a 32. La tasa de aprendizaje estuvo programada para reducirse en un factor de 0,2 si los
modelos no logran disminuir la pérdida de precisión en validación (validationloss) durante
10 epochs. Finalmente, los autores también utilizaron la detención anticipada (earlystop-
ping), también basada en la pérdida de precisión de validación acumulada durante 15
epochs. Todas las imágenes se redimensionaron al tamaño 229×229 para el modelo In-
ceptionV4, 331×331 para PNASnet y 224× 24 para el resto de arquitecturas. Además, los
autores aplicaron las siguientes operaciones de preprocesamiento de imágenes: ajuste del
brillo, contraste, saturación y tono, además incluyeron el método “Data Augmentation”
con rotaciones horizontales y verticales, y traslaciones. Los autores agregaron 2 modelos
más a evaluar mediante el método de Ensamblado, además de las 13 arquitecturas antes
mencionadas. El primero está compuesto por el ensamblado de los 13 modelos. Mientras
que el segundo ensamblado consta de los mejores tres modelos según la precisión equili-
brada.
b. Manejo de la clase atípica
Para detectar cualquier tipo de valor atípico, los autores proponen un enfoque basado en la
entropía para detectar la clase desconocida. Los clasificadores usados por los autores gen-
eran las probabilidades para cada clase usando la función softmax. Básicamente, cuando
un clasificador tiene dudas sobre una nueva muestra, y puede ser un valor atípico, asigna
un valor para la probabilidad de diferentes clases. Por otro lado, cuando el clasificador
está seguro de su decisión, asigna una probabilidad alta para una sola clase. Es decir, el
11
valor de entropía del primer caso es mayor que la del último caso, con esta premisa se
construye una categoría adicional.
c. Inclusión de meta-data
Los metadatos se componen de tres variables: la edad del paciente, la región del cuerpo
en la que se produce la lesión y el sexo del paciente. Los autores desarrollaron un modelo
de Redes Bayesianas y árbol de decisiones para estimar la probabilidad de cada categoría
a partir de las variables mencionadas. Durante la evaluación, en caso exista valores nulos
en la meta-data, se calcula la probabilidad solo para los datos disponibles. Por ejemplo, si
la edad no es nula, pero falta la variable de región, se realiza el algoritmo considerando las
probabilidades de la variable de región igual a cero. Para la evaluación de los modelos, los
autores dividieron el conjunto de datos en 80 % para entrenamiento, 10% para validación
y 10% para evaluación.
Table 1.4: Resultado del desempeño de cada modelo, en términos de precisión equili-
brada.
Model Balanced accuracy
DenseNet 121 0.811
DenseNet 169 0.842
DenseNet 201 0.879
GoogleNet 0.865
InceptionV4 0.887
MobileNetV2 0.853
PNASNet 0.894
ResNet 50 0.876
ResNet 101 0.888
ResNet 152 0.901
SENet 0.868
VGG 16 0.837
VGG 19 0.825
Ensemble 1 0.883
Ensemble 1 0.897
Ensemble 1 + Meta-data 0.891
Ensemble 2 + Meta-data 0.901
12
A comparative study of deep learning architectures on melanoma detection(Kassani
& Hosseinzadeh, 2019)
13
Table 1.5: Resultados de diferentes métodos
Methods Precision Recall F-Score ACC
AlexNet 0.7717 0.7873 0.7726 0.7853
AlexNet* 0.8421 0.8125 0.8231 0.8045
ResNet50 0.8652 0.8663 0.8537 0.8637
ResNet50* 0.9373 0.9253 0.9274 0.9208
VGGNet16 0.8442 0.8447 0.8433 0.8436
VGGNet16* 0.907 0.9032 0.9061 0.8836
VGGNet19 0.8468 0.8457 0.8436 0.8461
VGGNet19* 0.8855 0.8882 0.8838 0.8870
Xception 0.4472 0.6633 0.5346 0.6629
Xception* 0.9019 0.9057 0.9041 0.9030
Marwan Ali Albahar (2019), de la Ibn Rushd College for Management Science en Abha,
Arabia Saudita, propuso un modelo basado en redes neuronales convolucionales (CNN)
con la inclusión de un regularizador innovador para la clasificación de lesiones cutáneas.
Este enfoque tiene como objetivo mejorar la precisión de la clasificación al reducir el
sobreajuste y aumentar la generalización del modelo al clasificar lesiones cutáneas en
categorías benignas y malignas.
a.Diseño y Entrenamiento del Modelo CNN
Para entrenar el modelo de Red Neuronal Convolucional (CNN), todas las imágenes
del conjunto de datos fueron redimensionadas a 300x300 píxeles, permitiendo preservar
la información en las imágenes y reducir el costo computacional. Durante el preproce-
samiento, se aplicó una transformación de ley de potencia para mejorar la calidad visual
de las imágenes, según la ecuación:
s = c · rγ (1.1)
14
emplea 32 filtros de convolución de tamaño 3 × 3, produciendo 32 canales de tamaño
298 × 298. La segunda capa convolucional aplica 64 filtros de tamaño 3 × 3, generando 64
canales de tamaño 296 × 296. En cada capa convolucional se incorpora un regularizador
novel para reducir la complejidad del modelo penalizando los valores de los filtros, lo cual
disminuye el riesgo de sobreajuste.
Después de estas capas convolucionales, se aplicó una capa de agrupamiento máximo
(*max pooling*) de tamaño 2 × 2 para preservar características invariantes en la salida.
A continuación, se añadió una capa de dropout para mitigar el sobreajuste y mejorar la
precisión del modelo. La salida se aplanó y conectó a una capa totalmente conectada
de 128 neuronas, seguida de la capa de salida correspondiente a las clases de las lesiones
cutáneas.
15
ROC como herramienta para evaluar la sensibilidad (tasa de verdaderos positivos) del
clasificador.
Deep CNN and Data Augmentation for Skin Lesion Classification (Pham,
Luong, Visani, & Dung, 2018)
En este artículo, los autores proponen demostrar el uso de la técnica “Data Augmenta-
tion”en imágenes parasuperar el problema de la limitación de datos y examinar la in-
fluencia de diferentes números de muestras usando la técnica de aumento,evaluando el
rendimiento de diferentes clasificadores. El sistema de clasificación propuesto se evalúa
utilizando el conjunto de datos de lesiones cutáneas “ISBI Challenge 2017”, el cual contiene
600 imágenes para evaluación y 6162 imágenes de entrenamiento. Los autores proponen
un sistema de clasificación de Melanoma, el cual incluye tres principales componentes: mó-
dulo de Data Augmentation, extracción de características (red neuronal) y clasificación
de Data Augmentation.
a) Data Augmentation En el sistema de clasificación propuesta por los autores, se apli-
caron tres tipos de ramas de “Data Augmentation”.
- Geométrica: Las imágenes de entrada se transformaron para generar nuevas muestras
con la misma etiqueta del original, mediante una combinación aleatoria de giros horizon-
tales y verticales.
16
- Color: Las imágenes de las lesiones cutáneas fueron obtenidas de diferentes fuentes y
fueron tomadas por diferentes tipos de dispositivos. Por tanto, los autores enfatizan en la
importancia de normalizar los colores de las imágenes para el entrenamiento (brillo, tono
y contraste).
- Transformaciones basadas en conocimiento de especialistas: En el aprendizaje au-
tomático, las transformaciones afines, como el corte, la distorsión y el escalado, deforman
aleatoriamente los datos de trazos para la clasificación de imágenes.
Por lo tanto, la deformación es muy adecuada para aumentar los datos para mejorar el
rendimiento y mitigar el sobreajuste de la clasificación del melanoma.
b) Extracción de características
Los autores usaron la arquitectura de red neuronal convolucional InceptionV4 para el pro-
ceso de extracción de características de las imágenes. Inception V4 es una arquitectura
conocida desarrollada en base a la plataforma GoogLeNet, el tamaño de la imagen de
entrada es de 299x299 píxeles, la salida depende de cuántas clases se pretenda predecir.
En el modelo pre-entrenado utilizado en esta investigación, el resultado son las 1000 cat-
egorías (ImageNet). Sin embargo, en este estudio se usa la última versión de GoogLeNet
(Inception V4); se elimina la capa completamente conectada y se usa la capa de agru-
pación promedio como capa final.
c) Clasificación con Data Augmentation
En este estudio, los autores analizan 3 clasificadores para responder a la pregunta de si
aplicando“Data Augmentation” mejora el rendimiento de la clasificación del melanoma.
En el proceso de evaluación, todos estos clasificadores se evalúan con el mismo conjunto de
datos de prueba en tres tipos de aumento de datos (Sin aumento de datos =“NO DAUG”,
Aumento en 50 muestras en cada imagen –“DAUG 50”, Aumenta en 100 muestras en cada
imagen –“DAUG 100”).
Los resultados de la implementación de la propuesta, aplicando la técnica de “Data Aug-
mentation” con aumento de 100 muestras en cada imagen en evaluación, logro un desem-
peño de 89.2 % en precisión. Se observa una diferencia de 3% comparando con el resultado
de no aplicar “Data Augmentation” en la evaluación del modelo.
17
Table 1.6: . Resultado del desempeño de los clasificadores propuestos. AUC: Área Bajo la
Curva, AP: Precisión Promedio, SEN: Sensibilidad, SPC: Especificidad, ACC: Exactitud,
PPV: Valor Predictivo Positivo
Classifier AUC AP SEN SPC ACC PPV
ISBI TOP 3
TOP #1 0.868 0.710 0.735 0.851 0.828 –
TOP #2 0.856 0.654 0.103 0.998 0.850 –
TOP #3 0.874 0.715 0.547 0.950 0.872 –
DAUG 100
NN 0.892 0.739 0.556 0.971 0.890 0.823
SVM 0.773 0.547 0.351 0.965 0.890 0.800
RF 0.751 0.530 0.530 0.973 0.887 0.827
DAUG 50
NN 0.882 0.736 0.598 0.950 0.882 0.745
SVM 0.777 0.527 0.529 0.980 0.880 0.745
RF 0.757 0.526 0.547 0.967 0.887 0.813
NO DAUG
NN 0.862 0.696 0.581 0.942 0.872 0.780
SVM 0.767 0.527 0.529 0.980 0.880 0.750
RF 0.746 0.517 0.521 0.971 0.883 0.813
18
precisión con un número de parámetros mucho menor en comparación con otras redes
frecuentemente utilizadas, como por ejemplo las ResNet. Por lo tanto, dado que nuestros
recursos computacionales son limitados,el autor toma en cuenta que esta familia Efficient-
Net y, en particular, la red B0, ya que es la que menos parámetros entrenables tiene.En
esta línea, se ha desarrollado un clasificador basado en una red convolucional Efficient-
NetB0, variando distintos parámetros de entrenamiento y de la propia red hasta alcanzar
un modelo final. Esta red es capaz de clasificar imágenes de 8 patologías principales,
entre las que se encuentran los principales tipos de cáncer de piel y otras enfermedades.
Además, consta de una clase adicional que representa todas las patologías no incluidas
en las 8 anteriores, de forma que el modelo pueda reconocer cuándo una imagen es de-
sconocida. El archivo de imágenes de esta organización es, actualmente, el mayor banco
de imágenes de este tipo, convirtiéndose en el principal referente de datos para la inves-
tigación de nuevos métodos automáticos de detección de estas enfermedades. Por esta
razón, la base de imágenes de este trabajo será el dataset publicado en la competencia
ISIC 2019.
Regularizacion L2
19
La regularización L2 se introdujo con un valor de 0.01, lo que resultó en una disminución
de la sensibilidad en los modelos F y G. Esta técnica penaliza los pesos
20