Dark Web Y Deep Web Como Fuentes de Ciberinteligencia Utilizando Minería de Datos
Dark Web Y Deep Web Como Fuentes de Ciberinteligencia Utilizando Minería de Datos
Dark Web Y Deep Web Como Fuentes de Ciberinteligencia Utilizando Minería de Datos
RESUMEN
Deep Web es la parte más grande de Internet, cuyos contenidos no pueden in-
dexar los buscadores web convencionales; puede servir para actividades legales
e ilegales. Dark Web ocupa las zonas más oscuras de Deep Web y requiere de
herramientas específicas de acceso. Ambas constituyen una importante fuente de
ciberinteligencia, especialmente sobre amenazas, vulnerabilidades y riesgos. La mi-
nería de datos, en sentido amplio, puede ayudar a encontrar sentido a las ingentes
cantidades de datos existentes en Deep Web y Dark Web. Esas técnicas permiten el
análisis cuasi automático de conjuntos de datos enormes y complejos para desvelar
patrones e identificar tendencias.
Palabras clave: Deep Web, Dark Web, ciberinteligencia, darknet, minería de datos,
knowledge discovery
ABSTRACT
The Deep Web is the largest part of the Internet, whose contents are not indexed by
standard search engines; it can be used for legal and illegal activities. The Dark Web
takes up the darkest corners in the Deep Web and requires specialized tools to access.
Both represent an important source of cyber intelligence, mainly in regards to threats,
vulnerabilities and risks. Data mining can help to make sense of massive amounts of
data from the Deep Web and the Dark Web. Those techniques allow quasi-automatic
analysis of large and complex data sets to unveil patterns and identify trends.
Keywords: Deep Web, Dark Web, cyber intelligence, darknet, data mining, knowled-
ge discovery
1. INTRODUCCIÓN
La minería de datos (data mining), en sentido amplio, puede ayudar a mejorar las
capacidades de lucha contra el crimen organizado y el terrorismo, porque contribuye
a reducir la sobrecarga informativa y cognitiva de las personas. Ofrece un gran poten-
cial a la hora de extraer conocimiento implícito en los datos. Miembros de los cuerpos
y fuerzas de seguridad y de la comunidad de la inteligencia pueden beneficiarse de
estos métodos y técnicas para encontrar sentido a los datos y para presentar los re-
sultados eficazmente a los decisores.
La tremenda cantidad de datos, además en rápido crecimiento, excede la capaci-
dad de comprensión humana. Eso conduce a la situación actual, rica en datos pero
pobre en información. Esa brecha entre datos e información, que está en constante
2. DEFINICIONES
El ciberespacio designa el “dominio global y dinámico compuesto por las infraes-
tructuras de tecnología de la información –incluida Internet–, las redes y los sistemas
de información y de telecomunicaciones” (Gobierno de España, 2013, p. 9). Dentro
de Internet, existe una cierta confusión de términos. A menudo Deep Web (Internet
Profunda) y Dark Web (Internet Oscura) se usan indistintamente. Sin embargo, es
conveniente diferenciarlos.
Deep Web es aquella parte de Internet que no es accesible a los motores de bús-
queda basados en enlaces como Google. La única manera de acceder a ella es intro-
ducir una consulta directa en un formulario de búsqueda web. De esa forma, se pueden
recuperar contenidos dentro de una base de datos que no está enlazada (Pederson,
2013, p. 2). En cambio, Surface Web (Internet Superficial) sí es accesible a través de
técnicas de rastreo web basadas en enlaces, que conducen a datos localizables vía
hiperenlaces desde la página principal de un dominio. Buscadores como Google, Bing
o Yahoo pueden encontrar esos datos en la Internet Superficial (Pederson, 2013, p. 2).
Deep Web se refiere a cualquier contenido de Internet que, por diversos motivos,
no puede ser indexado por los buscadores. Incluye páginas web dinámicas, sitios
bloqueados (como los que requieren responder un CAPTCHA para acceder), sitios no
enlazados, sitios privados (que necesitan credenciales para entrar), contenidos que no
son HTML, contextuales o con scripts, y redes de acceso limitado. Las redes de acceso
limitado están formadas por nombres de dominio registrados en sistemas de nombres
de dominio (DNS) no gestionados por ICANN (Internet Corporation for Assigned Names
and Numbers) y por direcciones URL (Uniform Resource Locator) con dominios de
1 Knowledge Discovery in Database (KDD) incluye varias etapas: Limpieza de datos (para eliminar
datos inconsistentes y ruidosos); integración de datos (donde se pueden combinar varias fuentes);
selección de datos (se recuperan de la base de datos los que son relevantes para el análisis);
transformación de datos (los datos se agregan o se consolidan en formas adecuadas para realizar
después el minado); minería de datos (proceso esencial en el que se aplican métodos de inteli-
gencia para extraer patrones de datos); evaluación de patrones (para identificar aquellos patrones
que son realmente interesantes y que suponen conocimiento); y presentación del conocimiento
(mediante técnicas de visualización y representación para mostrar el conocimiento extraído a los
usuarios) (Han et al, 2012, pp. 7-8).
datos transmitidos al sistema de forma dinámica (Han et al., 2012, p. 7). Abarca una
amplia variedad de técnicas de diversos campos como la estadística, el aprendizaje
automático (machine learning), el reconocimiento de patrones, las bases de datos, la
recuperación de información, la visualización, los algoritmos o la computación de alto
rendimiento, entre otros (Han et al., 2012, p. 23).
Muchas de esas técnicas de Knowledge Discovery se pueden aplicar a los estudios
de seguridad, teniendo en cuenta sus peculiaridades. Las más empleadas se pueden
clasificar en estas categorías: compartición de información, análisis de asociaciones
criminales, clasificación y clusterizado del crimen, análisis de inteligencia y análisis
espacio-temporal de delitos (Chen, 2012, p. 26).
Figura 2. Contenidos en la red Tor. Fuente: Elaboración propia a partir de Moore y Rid, 2016, pp. 20-21.
En Dark Web, igual que en el mundo real, los delincuentes necesitan ser presenta-
dos y sus referencias deben ser comprobadas antes de poder realizar transacciones.
La distribución de bienes y servicios está organizada alrededor de miles de salas de
chat ilícitas y de foros mediante previa invitación. Los sitios ilícitos más exclusivos
requieren contar con direcciones alfanuméricas secretas, que no están listadas en
línea, sino que se pasan de persona a persona. Ciertos foros criminales impiden que
los candidatos aspirantes entren en sus mundos clandestinos sin haber recibido la
aprobación unánime por parte de los miembros más antiguos de la organización y
transcurrido un periodo de espera de más de una semana (Goodman, 2015, p. 202).
Casi la mitad de los Estados miembros de la Unión Europea ha investigado activi-
dades relacionadas con drogas o con pagos fraudulentos con tarjetas en Darknet, y
más de un tercio de los países europeos ha indagado en actividades relacionadas con
propiedad intelectual, tráfico de armas o cuentas bancarias comprometidas. Casi un
tercio de los cuerpos policiales de la Unión Europea monitoriza activamente los mer-
cados en Darknet, sobre todo para operaciones específicas en lugar de para recopilar
inteligencia con carácter general. Una pequeña parte de los delincuentes activos en la
Internet Oscura consigue explotar con éxito negocios que generan pingües beneficios.
Es un mercado muy concentrado, donde el 1% de los vendedores acapara el 51,5%
del total de las transacciones en Darknet (Europol, 2015, p. 52).
Dark Web ofrece recursos a los criminales para acceder a tutoriales, donde pueden
adquirir instrucciones y comprar las herramientas necesarias para hackear ordena-
dores y cometer delitos, con un anonimato virtual. Esa parte del ciberespacio puede
crear una desconexión mental entre el criminal, el delito y el mundo real, porque las
víctimas no tienen rostro y no se emplea violencia directa. Ya no hace falta una banda,
unas pistolas y un coche para robar un banco; cualquier individuo puede cometer el
crimen desde su habitación con un simple ordenador portátil (UK Government Office
of Science, 2015, p. 57).
Actividades delictivas, como el crimen organizado, el terrorismo o el espionaje, se
desarrollan cada vez con mayor frecuencia en el ciberespacio a través de sofisticados
procedimientos técnicos y operativos. Un ejemplo es “la internet oculta (deep web),
donde se realizan actividades ilegales de todo tipo favorecidas por el anonimato del
usuario” (Gobierno de España, 2016, p. 54).
Dark Web ha crecido significativamente en la última década. Los contenidos alma-
cenados en las redes oscuras requieren software específico para acceder a ellas y,
por tanto, quedan ocultas para la mayoría de los internautas y facilitan la navegación
y las comunicaciones anónimas. Dark Web se ha convertido en una cadena de sumi-
nistro madura que sostiene actividades cibercriminales, que incluye la venta de todo
lo que un ciberdelincuente necesita para embarcarse en una actividad maliciosa. Ade-
más, esa misma cadena de suministro hace posible que el delincuente pueda vender
lo que ha robado (UK Government Office of Science, 2015, p. 75).
Esas complejas cadenas de suministro para el cibercrimen pueden extenderse por
todo el mundo, como Silk Road, y usar tecnologías anonimizadoras como Tor, que
permiten que cualquier persona pueda comprar cualquier producto o servicio, des-
de software malicioso a tiempo de alquiler de una botnet (UK Government Office of
Science, 2015, p. 76).
4. DIFICULTADES DE EXPLOTACIÓN
Utilizar Deep Web como fuente de ciberinteligencia no es una tarea sencilla. Esta
parte de Internet tiene una serie de peculiaridades que limitan su explotación. El gran
escollo es recopilar los datos. La información no está directamente accesible como
páginas web, porque suele estar detrás de formularios web.
Generalmente, los formularios web se presentan como una colección de campos de
entrada, casillas de verificación, listas desplegables y otros elementos de selección,
algunos de los cuales pueden ser obligatorios. Actúan como una interfaz que especifica
todos los posibles patrones de acceso subyacentes en los datos, y los protege de ac-
cesos no deseados (Bienvenu, Deutch, Martinenghi, Senellart y Suchanek, 2012, p. 2).
2. Correspondencia de esquema
La correspondencia de esquema (matching schema) es el proceso de identificar
dos objetos semánticamente relacionados. En lugar de rellenar el formulario en el sitio
Deep Web y luego extraer los datos para comprobar si son relevantes, se prepara un
esquema de los datos requeridos. Eso reduce los costes de extracción y procesado.
3. Otras técnicas de extracción en búsquedas Deep Web.
Entre ellas figuran la minería de datos, las arañas web basadas en ontología, el
clustering o la extracción visual de datos. Tienen en común que, en lugar de extraer
la información completa y luego parsearla, solo capturan la sección que contiene la
información relevante (Khurana y Chandark, 2016, 210, pp. 415-416).
Antes de poder extraer los datos almacenados en Deep Web es necesario estable-
cer un conjunto de normas que determinen la información de interés (ejemplos positi-
vos) y descarten los datos espurios (ejemplos negativos). Existen diversas propuestas
para elaborar esas reglas de aprendizaje, que además deben ser adaptables, porque
la web evoluciona rápidamente (Jiménez y Corchuelo, 2015, p. 140). Por ejemplo, es
posible adoptar un enfoque de arriba-abajo, que empieza con la regla más general y
va añadiendo iterativamente condiciones basadas en las características del catálo-
go hasta que la regla ya no encuentra ningún ejemplo negativo. El proceso finaliza
cuando todos los ejemplos positivos coinciden. En caso contrario, el proceso conti-
núa aprendiendo nuevas reglas. El sistema incluye mecanismos para evitar que se
generen reglas demasiado complejas o excesivamente específicas. Esta propuesta
de aprendizaje de reglas permite extraer información de interés desde Deep Web de
forma automática, para que pueda ser procesada posteriormente por agentes de soft-
ware. Para disminuir el coste de las búsquedas, se incluye una técnica que reduce los
ejemplos negativos (Jiménez y Corchuelo, 2015, pp. 141 y 149).
Automatizar procesos es otro escollo complicado de superar. Uno de los primeros
procesos que tiene que ser automático es la identificación de la interfaz de búsqueda
en Deep Web. En un entorno de aprendizaje automático, hace falta un clasificador
binario que diferencie entre interfaces buscables y no buscables. Se pueden usar va-
rios métodos como árboles de decisión o redes de neuronas artificiales, entre otros.
Sin embargo, independientemente del algoritmo de aprendizaje utilizado, suelen ser
técnicas supervisadas que deben enfrentarse al problema de la escasez de datos eti-
quetados (Wang, Xu y Zhou, 2014, p. 635).
Por otro lado, en Deep Web es habitual que las páginas de resultados de consultas
se generen dinámicamente desde las bases de datos en respuesta a las consultas
enviadas por los usuarios. Extraer automáticamente datos estructurados de dichos
resultados es un problema complicado, porque la estructura de los datos no está ex-
plícitamente representada (Anderson y Hong, 2013, p. 1233).
Los servicios en Deep Web presentan interdependencias, sobre todo cuando un
mismo dato está disponible por varias vías. Es aconsejable tenerlo en cuenta para
planificar y optimizar las consultas. Por eso, la diversificación y la eliminación de du-
plicados son aspectos que no deberían olvidarse (Bienvenu et al., 2012, p. 2). Así,
identificar y deshacerse de los registros duplicados es otra tarea clave a la hora de
preprocesar datos de Deep Web, sobre todo cuando se trata de integrarlos desde
capturas de pantalla con sellos de tiempo para evitar que sus casos sean inva-
lidados (Ciancaglini et al., 2015, p. 38).
5. EJEMPLOS DE USO
El uso de técnicas minería de datos y Knowledge Discovery en Deep Web y Dark
Web está extendido, aunque en constante evolución. Las áreas que captan una
mayor atención por parte de los investigadores son las arañas (crawlers) para Deep
Web, los sistemas de detección y prevención de intrusiones (IDPS) y la detección
de comunidades virtuales.
Por otro lado, los sistemas actuales de detección y prevención de intrusiones (IDPS)
permiten reconocer anomalías y ataques desconocidos previamente, pero también
presentan importantes limitaciones (Dilek et al, 2015, p. 33):
1. La principal es construir un modelo sólido sobre lo que es un comportamiento
aceptable y lo que es un ataque. Se puede producir un elevado número de fal-
sos positivos, causados por un comportamiento atípico que realmente es nor-
mal y está autorizado.
2. Estos sistemas deben ser capaces de caracterizar patrones normales y para
crear un modelo de comportamiento normal necesitan amplios conjuntos de
datos de entrenamiento. Cualquier cambio en los patrones normales requieren
actualizar la base de conocimiento del sistema.
3. Si el sistema clasifica incorrectamente una actividad legítima como maliciosa, el
resultado puede ser un intento de parar esa actividad o cambiarla.
4. Cualquier sistema de detección, sin importar lo eficiente que sea, puede ser
desactivado por los atacantes si averiguan cómo funciona.
5. En entornos heterogéneos también está la cuestión de integrar la información
procedente de distintos sitios.
6. Los sistema asimismo deben ser diseñados de forma que cumplan las normas
legales, los requisitos de seguridad y los acuerdos de niveles de servicio co-
rrespondientes.
Ciertos sistemas IDPS se ocupan de analizar el comportamiento de las redes. Exa-
minan el tráfico de red para identificar amenazas que generan flujos de tráfico inusua-
les, como pueden ser los ataques de denegación de servicio. Se pueden utilizar sis-
temas de monitorización a gran escala para detectar ataques DDoS a partir de datos
de tráfico en Darknet. Por ejemplo, algunos son adaptativos y emplean un modelo de
aprendizaje supervisado a través de máquinas de soporte vectorial (SVM). Trabajan
con los paquetes observados en Darknet; algunos son fácilmente distinguibles a par-
tir de los números de los puertos de origen y destino, y de las banderas (flags), pero
otros no. Para detectar los paquetes complicados, el sistema extrae características
determinadas basándose en estadísticas y las clasifica usando un modelo SVM. Ade-
más, para tratar los cambios en los patrones de actividad, se aplica un aprendizaje
incremental (Furutani et al., 2015, p. 382).
Las comunidades virtuales en Dark Web reúnen a miembros que comparten inte-
reses sobre determinados temas. Por eso, para comprenderlas resulta fundamental
conocer cuáles son los principales intereses en cada una. A partir de ahí es posible
identificar a sus miembros clave, por ejemplo, los líderes de opinión. Un miembro cla-
ve sería una persona totalmente alineada con las metas y los temas de la comunidad
que produce contenidos que son muy relevantes para satisfacer los intereses del resto
de los miembros. Los miembros clave pueden o no estar altamente radicalizados, pero
lo que siempre sucede es que aumentan las interacciones en la comunidad gracias
a sus mensajes, que producen réplicas de miembros de distintos niveles (L’Huillier,
Alvarez, Ríos y Aguilera, 2010, pp. 66-67).
En una comunidad virtual hay metas diferentes asociadas con los objetivos de sus
miembros. El apoyo de la comunidad en un foro en Dark Web donde reina el anoni-
mato, la ubicuidad y la libertad de expresión es el ambiente perfecto para compartir
propaganda fundamentalista y terrorista. Un método para reconocer los objetivos sub-
yacentes de los miembros requiere identificar amenazas o cuestiones de seguridad
(L’Huillier et al., 2010, p. 67).
La topología de las Darknets comparte propiedades con otros tipos de redes sociales,
donde las estructuras de mundo pequeño están determinadas por las propiedades del
flujo de información, y caracterizadas por un camino medio corto y por un alto coeficien-
te de clustering. Se pueden emplear diferentes medidas de centralidad, como el grado,
la intermediación (betweenness) y la cercanía, para identificar a los miembros clave de
una comunidad. Este análisis de redes sociales se puede completar con minería de da-
tos de texto mediante análisis semántico latente. Generalmente se elabora un modelo
de evaluación y selección que mejora la clasificación de los mensajes que contienen
información sensible sobre las opiniones y sentimientos de los extremistas. Además el
análisis de autoría de las tendencias del grupo debe lidiar con el problema del anonima-
to asociado a este tipo de comunidades virtuales (L’Huillier et al., 2010, p. 67).
6. CONCLUSIONES
La minería de datos, entendida en sentido amplio, puede ser un gran aliado en en-
tornos fluctuantes y dinámicos como Deep Web y Dark Web. Sus técnicas que pueden
ayudar a encontrar sentido a cantidades ingentes de datos. También pueden contribuir
a reducir la sobrecarga informativa y cognitiva de los miembros de los cuerpos y fuer-
zas de seguridad y de la comunidad de la inteligencia.
En Deep Web y Dark Web se puede encontrar información valiosa sobre ame-
nazas, vulnerabilidades y riesgos. Actualmente son fuentes muy importantes para la
ciberinteligencia. Las potentes técnicas de minería de datos permiten convertir datos
en conocimiento. Por ejemplo, sirven para desvelar patrones e identificar tendencias.
Es esencial tener claros los objetivos y la estrategia desde el principio. Así será
posible seleccionar las técnicas de minería de datos y de Knowledge Discovery ade-
cuadas para cada caso. A menudo va a ser necesario adaptarlas a las peculiaridades
del campo de la seguridad. Tampoco hay que olvidar la importancia de interpretar y
evaluar los resultados antes de presentarlos a los decisores. Además, el contexto lo
cambia todo. Algo que funciona en un contexto y en un momento determinados puede
no hacerlo en otros.
AGRADECIMIENTOS
A Ramón Fuentes por leer el borrador de este artículo.
REFERENCIAS BIBLIOGRÁFICAS
Aldridge, J. y Décary-Hétu, D. (2016). Hidden wholesale: The drug diffusing capacity of
online drug cryptomarkets. International Journal of Drug Policy (en prensa).
Anderson, N. y Hong, J. (2013). Visually Extracting Data Records from the Deep Web.
WWW ‘13 Companion Proceedings of the 22nd International Conference on World
Wide Web, 1233-1238.
Bienvenu, M., Deutch, D., Martinenghi, D., Senellart, P. y Suchanek, F. (2012). Dealing
with the Deep Web and all its Quirks. En M. Brambilla, S. Ceri, T. Furche, & G. Gottlob
(Eds.), VLDS 2012: Very Large Data Search (pp. 21-24). Aachen: CEUR.
Bergman, M. (2001). The Deep Web: Surfacing Hidden Value. BrightPlanet. Dis-
ponible en http://brightplanet.com/wp-content/uploads/2012/03/12550176481-deep-
webwhitepaper1.pdf
Chen, H. (2012). Dark Web: Exploring and Data Mining the Dark Side of the Web.
Nueva York: Springer.
Ciancaglini, V., Balduzzi, M., McArdle, R. y Rösler, M. (2015). Below the Surface:
Exploring the Deep Web. Trend Micro. Disponible en https://www.trendmicro.com/
cloud-content/us/pdfs/security-intelligence/white-papers/wp_below_the_surface.pdf
Dilek, S., Çakır, H. y Aydın, M. (2015). Applications of Artificial Intelligence Techniques
to Combating Cyber Crimes: A Review. International Journal of Artificial Intelligence &
Applications (IJAIA), 6(1), enero 2015, 21-39.
Europol. (2015). The Internet Organised Crime Threat Assessment (IOCTA) 2015. La
Haya: Europol.
Fachkha, C. y Debbabi, M. (2016). Darknet as a Source of Cyber Intelligence: Sur-
vey, Taxonomy, and Characterization. IEEE Communications Surveys & Tutorials,
18(2), 1197-1227.
Fu, T., Abbasi, A. y Chen, H. (2010). A Focused Crawler for Dark Web Forums. Journal
of the American Society for Information Science and Technology, 61(6), 1213-1231.
Furutani, N., Kitazono, J., Ozawa, S., Ban, T., Nakazato, J. y Shimamura, J. (2015). En
Arik, Sabri, Huang, Tingwen, Lai, Weng Kin y Liu, Qingshan (Eds.), Neural Information
Processing, 22nd International Conference, ICONIP 2015, Istanbul, Turkey, November
9–12, 2015 Proceedings, Part IV (pp. 376-383). Cham: Springer.
Gobierno de España. (2013). Estrategia de Ciberseguridad Nacional 2013.
Gobierno de España. (2016). Informe Anual de Seguridad Nacional 2015.
Goodman, M. (2015). Future Crimes: A Journey to the Dark Side of Technology - and
How to Survive it. Londres: Transworld Publishers.
Gupta, S. y Bhatia, K. K. (2014). A Comparative Study of Hidden Web Crawlers. Inter-
national Journal of Computer Trends and Technology, 12(3), 66, 111-118.
Han, J., Kamber, M. y Pei, J. (2012). Data Mining: Concepts and Techniques. Waltham:
Elsevier.
Hardy, R. A. y Norgaard, J. R. (2015, 4 de noviembre). Reputation in the Internet black
market: an empirical and theoretical analysis of the Deep Web. Journal of Institutional
Economics, 1-25. doi: 10.1017/S1744137415000454
Hawkins, B. (2016). Under The Ocean of the Internet - The Deep Web. SANS Institute
Reading Room. Disponible en https://www.sans.org/reading-room/whitepapers/covert/
ocean-internet-deep-web_37012
Jiménez, P. y Corchuelo, R. (2015). On Extracting Information from Semi-structured
Deep Web Documents. En Abramowicz, W. (Ed.), Business Information Systems, 18th
International Conference, BIS 2015, Poznań, Poland, June 24-26, 2015, Proceedings
(pp. 140-151). Cham: Springer.
Khurana, K. y Chandak, M. B. (2016). Survey of Techniques for Deep Web Source
Selection and Surfacing the Hidden Web Content. International Journal of Advanced
Computer Science and Applications, 7(5), 409-418.
L’Huillier, G., Alvarez, H., Ríos, S. A. y Aguilera, F. (2010). Topic-Based Social Net-
work Analysis for Virtual Communities of Interests in the Dark Web. SIGKDD Explo-
rations, 12(2), 66-73.
Moore, D. y Rid, T. (2016) Cryptopolitik and the Darknet. Survival, 58(1), 7-38.
Nakao, K. (2016). IoTSecurity issues related to the future Networked Car. Sympo-
sium on The Future Networked Car, Geneva, Switzerland, 3 de marzo de 2016. Dis-
ponible en https://www.itu.int/en/fnc/2016/Documents/Presentations/Koji-Nakao.pdf
Pederson, S. (2013, marzo). Understanding the Deep Web in 10 Minutes. BrightPlanet.
Disponible en http://bigdata2.brightplanet.com/whitepaper-understanding-the-deep-
web-in-10-minutes
UK Government Office of Science. (2015). Annual Report of the Government Chief
Scientific Adviser 2015: Forensic Science and Beyond: Authenticity, Provenance and
Assurance. Evidence and Case Studies.
Soska, K. y Christin, N. (2015). Measuring the Longitudinal Evolution of the Online
Anonymous Marketplace Ecosystem. Proceedings of the 24th USENIX Security