Introducción A Los Algoritmos Genéticos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

Algoritmos Genticos

Ricardo Di Pasquale [email protected]

Resumen Se presenta esta tcnica de inteligencia artificial consistente en la utilizacin de algoritmos de naturaleza evolutiva que utilizan una analoga del principio de seleccin natural darwiniana

para generar mejores soluciones a problemas complejos. La exposicin se realiza con software libre (jgap), orientando la aplicacin a la minera de datos.

Introduccin Los algoritmos genticos son llamados as porque se inspiran en la evolucin biolgica y su base genticomolecular. El principio de supervivencia del ms apto propuesto por Darwin puede ser usado como punto de partida para la computacin evolutiva. Por analoga de este proceso, los Algoritmos Genticos son capaces de ir generando soluciones para problemas del mundo real, siendo ellas cada vez mejores a medida que corre el algoritmo. Esencialmente, los problemas atacados por los algoritmos genticos y la computacin evolutiva, son problemas de bsqueda en espacios de estado. Cuando esos estados son pocos, es posible hacer una bsqueda exhaustiva en cada uno de ellos, ahora, cuando el nmero de estados posible crece demasiado, este enfoque se torna intratable o imposible de realizar en tiempos finitos. Existen algoritmos clsicos que examinan estados al azar como el enfoque random walk, o aplican heursticas para visitar determinados estados (gradient descent 1) tratando de encontrar la solucin ptima. Lo que distingue esencialmente a los enfoques evolutivos de los enfoques tradicionales de bsquedas, es que los primeros se encuentran basados en poblaciones de soluciones, y que a travs de la adaptacin de sucesivas generaciones de un gran nmero de individuos, un algoritmo evolutivo realiza una bsqueda direccionada de manera eficiente. Esta bsqueda evolutiva es generalmente mejor que la direccionada exclusivamente al azar (random walks) y suele evitar los problemas de estancamiento en mximos locales relacionados con el comportamiento de los algoritmos tipo hill climbing. En la naturaleza los individuos de una poblacin compiten entre s en la bsqueda de recursos tales como comida, agua y refugio. Incluso los miembros de una misma especie compiten a menudo en la bsqueda de un compaero. Aquellos individuos que tienen ms xito en sobrevivir y en atraer compaeros tienen mayor probabilidad de generar un gran nmero de descendientes. Por el contrario, los individuos menos dotados producirn un menor nmero de descendientes. Esto significa que los genes de los individuos mejor adaptados se propagarn en sucesivas generaciones hacia un nmero de individuos creciente. La combinacin de buenas caractersticas provenientes de diferentes ancestros, puede a veces producir descendientes superindividuos", cuya adaptacin es mucho mayor que la de cualquiera de sus ancestros. De esta manera, las especies evolucionan logrando unas caractersticas cada vez mejor adaptadas al entorno en el que viven. Los Algoritmos Genticos utilizan una analoga con el comportamiento natural. Trabajan con una poblacin de individuos, cada uno de los cuales representa una solucin factible a un problema dado. A cada individuo se le asigna un valor o puntuacin, relacionado con la bondad de dicha solucin. En la naturaleza esto equivaldra al grado de efectividad de un organismo para competir por unos determinados recursos. Cuanto mayor sea la adaptacin de un individuo al problema, mayor ser la probabilidad de que el mismo sea seleccionado para reproducirse, cruzando su material gentico con otro individuo seleccionado de igual forma. Este cruce producir nuevos individuos los cuales comparten algunas de las caractersticas de sus padres. Cuanto menor sea la adaptacin de un individuo, menor ser la probabilidad de que dicho individuo sea seleccionado para la reproduccin, y por tanto de que su material gentico se propague en sucesivas generaciones. De esta manera se produce una nueva poblacin de posibles soluciones, la cual remplaza a la anterior y verifica la interesante propiedad de que contiene una mayor proporcin de buenas caractersticas en comparacin con la poblacin anterior. As a lo largo de las generaciones las buenas caractersticas se propagan a travs de la poblacin. Favoreciendo el cruce de los individuos mejor adaptados, van siendo exploradas las reas ms prometedoras del espacio de bsqueda. Desde el punto de vista de la resolucin de problemas, un individuo representa una solucin posible . La aptitud o fitness del mismo es una medida de cuan buena es la solucin para dicho problema. El objetivo del algoritmo gentico es buscar una solucin ptima al problema, entiendo por ptima no solamente la solucin ideal, sino alguna perteneciente a un conjunto de soluciones factibles que se considere buena para el problema estudiado . Conviene citar los paradigmas existentes dentro de la computacin evolutiva: 1. Algoritmos Genticos 2. Programacin gentica: La representacin utilizada es la de un rbol de longitud variable de funciones y valores. Cada hoja en el rbol es una etiqueta proveniente de un conjunto de etiquetas disponibles. Cada
1 Gradient-descent es un algoritmo de optimizacin de primer orden (en este caso de minimizacin), en el que se van tomando pasos proporcionalmnete al gradiente negativo de la funcin en el punto en donde se est posicionado.

nodo interno del rbol es una etiqueta proveniente de un conjunto de etiquetas de funciones. El rbol completo representa una sola funcin que deber ser evaluada (tpicamente de manera deep first por izquierda). Una hoja se evala como su valor correspondiente. Una funcin se evala como ella misma utilizando como parmetros sus hijos en el rbol. Respecto de la mecnica evolutiva, la programacin gentica es muy similar a los algoritmos genticos, con las obvias salvedades sobre los operadores genticos, ya que los mismos hacen cruza (crossover) de subrboles. 3. Estrategias evolutivas: La representacin utilizada es un vector de longitud fija de nmeros reales. El principal operador gentico es la mutacin gaussiana, en la que un valor aleatorio de una distribucin gaussiana se agrega al cada elemento del vector del individuo, creando una nueva descendencia. Otro operador gentico es la recombinacin intermedia, donde los vectores de dos padres son promediados (elemento por elemento) para formar un nuevo descendiente. 4. Programacin evolutiva: Los programas evolutivos toman prestados los mecanismos de los algoritmos genticos, aunque, incorporan conocimiento especfico del problema, es decir, se espera que el enfoque por algoritmos genticos sea ms generalista. Este conocimiento especfico suele traducirse en estructuras de datos ms naturales para el problema en cuestin, as como en operadores genticos ms sensibles al problema. Se puede afirmar que la diferencia bsica entre algoritmos genticos y programas evolutivos es que los primeros son clasificados como dbiles, es decir, mtodos independientes del problema, as como los programas evolutivos son clasificados como fuertes, La frontera entre dbil y fuerte es sumamente difusa. A la hora de disear un programa evolutivo, suele ser un problema interesante la definicin de cun dbil o fuerte debe ser. Respecto de cmo debe construirse un programa evolutivo, Michaelewicz [1] propone seguir cinco pasos bsicos: Elegir una representacin gentica de las soluciones del problema, lo que requiere un conocimiento de la naturaleza del problema. La representacin seleccionada debe ser capaz de llevar consigo toda informacin de relevancia para la solucin. Ntese que las diferencias bsicas entre varios paradigmas de la computacin evolutiva se concentran en este punto (cadenas binarias, vectores de nmero de punto flotante, programas, mquinas de estado finitas, etc.). Crear una poblacin inicial de individuos. Esto puede hacerse al azar, como salida de una heurstica u otro mtodo de optimizacin, etc. Seleccionar una funcin de evaluacin. A veces puede no ser una tarea trivial. Disear los operadores genticos cuidadosamente. Este diseo debe basarse en el problema en s mismo y en sus restricciones. Tambin es posible utilizar algoritmos de reparacin, funciones de penalidad, u otros mtodos para manejar restricciones especficas del problema. Muchos de los parmetros de la mecnica gentica son provistos por el programador o diseador del algoritmos, aunque, pueden ser controladas por un meta-proceso supervisor, cuya nica tarea sea controlar y ajustar todos los parmetros2. Algunas analogas biolgicas Los algoritmos genticos toman prestadas de la biologa ciertas definiciones que se pueden analogar de la siguiente manera: cromosoma individuo o estructura (potencial solucin) gen caracterstica o atributo alelo valor locus posicin en la estructura genotipo conjunto de genes o estructura fenotipo estructura decodificada A continuacin se enumeran algunas diferencias marcadas entre la biologa y los algoritmos genticos Mitosis y Meiosis: La mitosis es el proceso en el que una clula se divide, la meiosis se da en eucariotas y transforma una clula diploide en cuatro clulas haploides. Estos procesos son complejos, y en la naturaleza se dan errores durante los mismos. En una corrida por computadora de un algoritmo gentico, no existe ningn tipo de error en la descendencia.

Existen muchas publicaciones sobre la auto-adaptacin de los parmetros de programas evolutivos.

Hiptesis de Wobble: los aminocidos se codifican asimtricamente en tres cdigos genticos. Algunos aminocidos son ms comunes que otros. Existen cdigos o marcas de parada en el cdigo gentico que marcan la finalizacin de la sntesis de una protena. En los algoritmos genticos, los efectos dependiente de este fenmeno no ocurren. Herencia Mendeliana: En la naturaleza, la expresin fenotpica de las caractersticas del genotipo permiten la herencia intermedia. En algoritmos genticos esto slo se da en alguna implementacin especfica que busque este efecto.

Qu problemas pueden resolverse con Algoritmos Genticos Puede ser un desafo el hecho de seleccionar un problema candidato para ser resuelto va algoritmos genticos o programacin evolutiva. Habr problemas que sern ms sencillos de resolver va programacin tradicional que transcribirlos a un esquema gentico. Habr problemas de optimizacin numrica totalmente tratables con los solvers 3 tradicionales de programacin lineal. Los grandes candidatos son los problemas de bsqueda que no sean tratables con mtodos tradicionales. En el caso de optimizacin, la tratabilidad de los problemas puede radicar en la cantidad de variables, o restricciones que se ingresen al solver, por lo que siempre hay que tener en cuenta a los algoritmos genticos y la programacin evolutiva como herramientas de un nivel de paralelismo muy alto (y poco complejo de implementar). Otros candidatos importantes son los problemas de optimizacin multimodal 4 o tambin multiobjetivo5. Aunque en rigor a la verdad, el rea de aplicacin es tan extensa como programadores que han jugado con estas tcnicas con diversos problemas. reas de aplicacin Desde el punto de vista de la complejidad algortmica, los algoritmos genticos son utilizados en el tratamiento de problemas difciles (NP-hard). El atractivo que despiertan los algoritmos genticos tiene que ver con varios factores, como ser: la posibilidad de resolver en forma rpida (estndar) y eficientes problemas complejos en los que haya una complejidad en el tamao del espacio de bsqueda, una alta dimensionalidad de las funciones de aptitud, o incluso una no linealidad de las mismas, que lo hagan intratable para la programacin lineal. Por otro lado no necesitan mucha informacin especfica del problema, son ms bien generalistas, son muy extensibles e incluso suelen ser utilizados para realizar una primer bsqueda global y luego ingresar como parmetros a otra herramienta que implemente algn mtodo de bsqueda local. No son considerados como una herramienta exclusiva de optimizacin (como s lo es la programacin lineal), pero es un rea de aplicacin bastante frecuente. Sobre todo en mbitos de optimizacin multimodal o multiobjetivo. Se utilizan en el mbito del aprendizaje automatizado, pudiendo ser usados en la construccin y entrenamiento de otras estructuras como es el caso de las redes neuronales. El mbito del data mining tambin es propicio para la aplicacin de algoritmos genticos, en particular en este trabajo se presentar un algoritmo del rea de knowledge discovering en bases de datos. Han sido utilizados, en otro orden de cosas, para evolucionar msica y arte. En cuanto a la biologa, se ha utilizado con xito algoritmos genticos para buscar formas de molculas de protenas. Otras reas de inters son la prediccin de sistemas dinmicos no lineales, la planificacin de trayectorias de robots, planeamiento estratgico, diseo de aeroplanos, optimizacin de redes de comunicacin y optimizacin combinatoria. Diferencias con mecanismos de optimizacin Los algoritmos genticos se diferencias (en cuando a tcnicas de optimizacin) de otras tcnicas en varios aspectos: Operan con versiones codificadas (en cromosomas) del problema, en vez del problema en s. La mayora de las tcnicas convencionales de optimizacin buscan a partir de un puto, en cambio los algoritmos genticos usan una poblacin de soluciones. Esto juega un papel fundamental en la robustez de los algoritmos genticos. Mejora la chance de alcanzar el ptimo global y ayuda a evitar mximos locales estacionarios.
3 4 5 Se refiere a una herramienta de software para la optimizacin numrica va programacin lineal. La optimizacin multimodal se refiere a problemas que requieren localizar todas las soluciones ptimas de una funcin, entiendo ptimas como de inters (quizs por encima de cierto nivel). Suele haber problemas de toma de decisiones en los que se necesita la optimizacin simultnea de mltiples objetivos.

Utilizan para evaluar funciones de fitness en vez de derivadas y gradientes, como resultado, pueden ser aplicados a problemas de optimizacin discreta o continua. No utilizan transiciones de estado deterministas como otras tcnicas, sino que son transiciones probabilsticas

Ventajas y limitaciones Las ventajas de los algoritmos genticos incluyen: Paralelismo El espacio de soluciones posibles es ms amplio. Se simplifica encontrar un ptimo global Soporta optimizacin multimodal y multiobjetivo Es fcilmente modificable para ser utilizado en diferentes problemas. Puede manejar espacios de bsqueda grandes, incluso que no hayan sido debidamente estudiados. No requieren conocer el gradiente u otra informacin sobre la funcin del problema. Las discontinuidades sobre la superficie del espacio de la funcin de bsqueda tienen poco efecto en el rendimiento global de la optimizacin. Son resistentes a estancarse en ptimos locales (mximos o mnimos locales) Tienen buen rendimiento en problemas de optimizacin a gran escala. Pueden ser empleados para una gran gama de problemas de optimizacin. Las limitaciones de los algoritmos gentico incluyen: Puede ser difcil identificar la funcin de fitness La definicin de la representacin de los cromosomas puede ser compleja. Puede ocurrir convergencia prematura. El problema de ajustar los parmetros (tamao de poblacin, probabilidad de mutacin y cruza) No puede usar gradientes No incorporan por defecto heurstica propia del problema. No son buenos para identificar ptimos locales. Necesitan ser acoplados a tcnicas de bsqueda local. Tienen problemas en encontrar el ptimo global exacto. Requieren un gran tiempo de procesamiento para evaluar el fitness de cada individuo. La configuracin no es sencilla.

Cmo resolver problemas con Algoritmos Genticos Como en la mayora de las reas de la Tcnica, conviene comenzar por establecer una analoga de nuestro problema con un patrn de diseo o problema tpico ya resuelto. Es tpico del rea de optimizacin la catalogacin de este tipo de problemas, por lo que la enumeracin siguiente va a estar relacionada con este tipo de problemas sin que se infiera por ello que los algoritmos genticos son slo aplicables a problemas de optimizacin, sino como un ejemplo de algunos problemas ya planteados con Algoritmos Genticos o programacin evolutiva (generalmente NP o NP-hard): Problema del Viajante de Comercio: Dado un grafo en el que los nodos son locaciones y los arcos caminos que los unen con costos asociados a los mismo, se pretende determinar un ciclo hamiltoniano 6 cuyos nodos tengan un costo total mnimo. Problema de la Mochila: Dado un conjunto de tems con sus respectivos valores (profits), pesos y cantidades disponibles; y una mochila de determinada capacidad, se pide seleccionar un subconjunto de tems de mximo valor sin exceder la capacidad de la mochila. Problema de Localizacin sin capacidades: Habiendo un conjunto A de localizaciones posibles de plantas de produccin (con un costo de mantenimiento asociado) y B, un conjunto de clientes establecido (con una demanda establecida), se requiere determinar qu plantas conviene mantener abiertas y cmo asignar los clientes a las plantas. Problema del rbol de Steiner: Sea un grafo no dirigido donde cada arco tiene un costo asociado, y que el conjunto de nodos admita un subconjunto de nodos terminales, se requiere encontrar un rbol que contenga al menos a todos los nodos terminales y que sea de mnimo costo.
6 Un camino hamiltoniano en un grafo es un camino que visita todos los nodos una sla vez. Un ciclo hamiltoniano es un camino hamiltoniano en el que el ltimo nodo es adyacente al primero.

Problema de Programacin cuadrtica Booleana: Sea una matriz simtrica de n x n, se pide buscar un vector x que sea solucin de min{xt Qx : x en {0,1}n}. Problema de particin de conjuntos: Es un problema tpico de la programacin lineal entera, en donde en una matriz A (m x n) con coeficientes binarios, y un vector C (en R n), se pide encontrar una solucin x en {0,1} n que cumpla con Ax=1 y con mnimo valor de c Tx, siendo 1 un vector con m componentes iguales a 1. Si la condicin Ax=1 se reemplaza por Ax>=1, entonces el problema se llama Problema de cubrimiento de conjuntos. Si la condicin Ax=1 se reemplaza por Ax<=1, entonces el problema se llama Problema de empaquetamiento. Problema de secuenciacin de operaciones: Sea un conjunto A de mquinas y un conjunto B de trabajos, siendo cada trabajo una lista ordenada de operaciones que deben ser procesadas ininterrumpidamente sobre luna mquina determinada durante un tiempo conocido, se pide secuenciar el procesamiento de toadas las operaciones de modo que el procesamiento completo sea el ms rpido posible. Problema de asignacin en una red: Siendo un conjunto de tareas y otro de trabajadores, cada trabajador puede realizar una tarea y, a su vez, cada tarea puede ser realizada por un trabajador. Se conoce el costo de que sea determinado trabajador el que realiza determinada tarea. Se pide determinar qu trabajador debe realizar cada tarea, de manera que el costo total resulte el menor posible. Problema del flujo de costo mnimo en una red: Sea una red en donde cada arco tiene asociada una capacidad mxima y un costo para enviar una unidad de flujo por dicho arco, se pide determinar esquema fuentesumidero con menor costo total mnimo de entre todos los esquemas fuente-sumidero de flujo mximo. Problema de optimizar cortes: Este problema puede presentarse en una o dos dimensiones, por ejemplo, si se reciben rollos de cable, hay que optimizar la decisin de cmo distribuir las piezas en rollos de manera que consuma la menor cantidad posible de rollos de cable. En dos dimensiones, el problema tpico es el de cmo acomodar piezas de madera para minimizar el desperdicio de madera en el corte de los grandes paneles. Problema del coloreado de nodos en grafos: Es un problema NP-hard en el que se pide asignar un color a cada nodo de manera que los colores de los nodos adyacentes sean diferentes y la cantidad de colores utilizados sea mnima.

Por otro lado, se deber tomar la decisin de ir por el enfoque clsico de algoritmos genticos (ms generalista) o construir una solucin de programacin evolutiva (ms particular del problema en cuestin). Sobre la Complejidad Algortmica La Teora de la Complejidad Computacional es una rama de la ciencia de la computacin que est direccionada a estudiar cun complejo (o difcil) puede ser intrnsecamente un problema. O, visto desde otro punto de vista, qu tan bueno puede ser un algoritmo para resolver un problema. La complejidad temporal de un algoritmo consiste en el nmero mximo (el peor de los casos) de pasos que dicho algoritmo necesita del autmata para resolver instancias (referidas a las entradas o parmetros) del problema en cuestin, de tamao no superior a n, siendo n un nmero natural arbitrario. Esta complejidad suele expresarse no en trminos de la cantidad exacta de pasos, sino de la pauta de crecimiento de la complejidad segn el tamao de la instancia del problemas. Esta pauta es conocida como Orden de Complejidad en tiempo y se denota en notacin O u O grande7. El estudio del orden de complejidad algortmica es crucial a la hora de saber si vamos a poder encontrar una solucin a nuestro problema. Para ilustrar las implicancias de esta afirmacin, se adjunta una tabla que muestra una relacin entre varios rdenes de complejidad tpicos y un supuesto tiempo de resolucin del problema (en el peor de los casos). Esta relacin se construye a partir de una inverosmil suposicin de que cada paso le cuesta 1 milisegundo al autmata encargado de interpretar el programa del algoritmo y se puede observar en la tabla 1, cabe tener en cuenta que la edad del universo se estima en 13700 millones de aos:

Algunos ejemplos de Orden de Complejidad pueden ser O(n2), O(2 log2n) u O(2n)

Complejidad / Nro de pasos O(n) O(n log2 n) O(n ) O(n3) O(2 ) O(3n)
n 2

10 0,010'' 0,033'' 0,1'' 1'' 1,024'' 59,049'' 0,100'' 0,664'' 10'' 16,7 min

100 1'' 9,966'' 16,7 min 11,57 das


13

1000

4 x 10 millones de aos 1,63 x 1031 millones de aos

3,4 x 10284 millones de aos 4,2 x 10461 millones de aos

Tabla 1 Consumo de Tiempo segn complejidad tpica (para 1ms/paso)

Se dice que un algoritmo es polinomial si su orden de crecimiento est acotado por un polinomio en n, es decir, es del tipo O(nk) para algn nmero natural k 8. A los algoritmos polinomiales se los clasifica como eficientes. A su vez, se dice que un algoritmo es exponencial si no es polinomial. A los algoritmos exponenciales se los clasifica como ineficientes. Hasta ahora se habl de los algoritmos. Si se examinan las cualidades de los problemas que pueden resolverse a travs de dichos algoritmos, se podra decir que un problema puede considerarse polinomial si se conoce un algoritmo polinomial para determinar una solucin ptima a dicho problema. Se considera un problema de decisin a todo problema binario (es decir, que se solucin sea si o no), llamndose, a su vez, problema complemento de un problema de decisin a otro que pregunta lo opuesto al primero. Se conoce como clase P a la familia de problemas de decisin polinomiales. Un problema (de decisin) pertenece a la clase NP 9 si toda instancia con respuesta si admite un certificado polinomial, llamndose certificado polinomial a una informacin auxiliar que puede ser usada para verificar la exactitud de la respuesta del problema mediante un algoritmo polinomial (en el tamao de la instancia del problema) 10. Un problema (de decisin) pertenece a la clase co-NP 11 si toda instancia con respuesta no admite un certificado polinomial. Todos los problemas decisionales polinomiales estn en la clase NP y en la clase co-NP porque cualquiera de sus algoritmos polinomiales certifica en tiempo polinomial su respuesta, es decir, los complementos de problemas en P tambin estn en P y por ello, P est incluido en la interseccin de NP con co-NP. No se ha demostrado que los complementos de todos los problemas en NP estn en NP. Se dice que un problema es fuertemente polinomial si existe un algoritmo polinomial en la dimensin de la instancia, de esta manera, los problemas fuertemente polinomiales se caracterizan por tener un comportamiento dependiente en forma polinomial slo del tamao de la entrada, y no de la cantidad de entradas.

Ejemplos de algoritmos polinomiales pueden ser: algoritmo de Euclides para el mximo comn divisor, qsort para ordenar una lista de nmeros naturales. 9 Nondeterministic Polynomial 10 Cabe destacar que no interesa cmo se obtiene dicho certificado polinomial, sino su mera existencia. 11 Complemento de NP

Cmo funcionan El esquema bsico de funcionamiento de los algoritmos genticos puede verse en la siguiente figura:

Figura 2 Esquema bsico para el funcionamiento de un algoritmo gentico

Un algoritmo gentico debe poseer los siguientes componentes: Una representacin gentica para soluciones potenciales. Una forma de crear una poblacin inicial de soluciones potenciales. Una funcin de evaluacin que tome el rol del entorno biolgico, calificando los individuos (potenciales soluciones) en trminos de su fitness. Operadores genticos que alteren la composicin de la descendencia. Valores para parmetros, como son los siguientes: Tamao de la poblacin Probabilidad de aplicacin de cada operador gentico Otros El enfoque clsico de algoritmos genticos define que los cromosomas estn constituidos por cadenas de bits. Cada individuo posee un slo cromosoma. Un individuo representa una solucin potencial al problema. Puede hacerse un paralelo con la biologa a la hora de hablar de un fenotipo, ya que en algoritmos genticos, el fenotipo de un problema consiste en el conjunto de factores que componen la solucin del problema. En trminos de genotipo, el cromosoma codifica esos factores del problema que se expresan en el fenotipo. Un cromosoma se divide en genes, que son las representaciones de un factor simple del problema. Cada factor en la solucin se corresponde con un gen del cromosoma. Un cromosoma debe contener toda la informacin sobre la solucin que representa. La funcin de morfognesis asocia cada genotipo con su fenotipo, lo que simplemente significa que cada cromosoma debe definir una nica solucin, pero no significa que cada solucin sea codificada por un slo cromosoma, de hecho la funcin de morfognesis puede no ser biyectiva (de hecho hay veces que puede ser imposible declarar una funcin de morfognesis biyectiva). Todos las soluciones potenciales del problema deben corresponderse con (al menos) un cromosoma posible, para estar seguros de que el espacio de bsqueda completo ser analizado. Cuando la funcin de morfognesis no es inyectiva, se dice que la representacin es degenerativa. Un pequeo factor de

degeneracin no es preocupante, pero si lo es un factor importante que puede constituir un problema grave y afectar seriamente el comportamiento del algoritmo gentico (ms que nada si varios cromosomas pueden representar el mismo fenotipo, de lo que se deduce que cada gen no se corresponde con una caracterstica especfica de la solucin). Los genes son grupos de bits dentro del cromosoma, por lo que pueden contener uno o ms bits. Es importante definir un esquema posicional dentro del cromosoma. El enfoque bsico de algoritmos genticos dice que la poblacin inicial se puede establecer aleatoriamente, teniendo en cuenta las reglas de conformacin de individuos vlidos (que a veces pueden ser complejas). A veces es conveniente introducir cierta heurstica en la generacin de la poblacin inicial con el fin de introducir conocimiento local del problema. Otras veces es conveniente introducir individuos en la poblacin inicial que surjan de otros mtodos previos de bsqueda. La funcin de fitness evala un individuo devolviendo un valor numrico que representa el valor de la funcin objetivo del problema para su fenotipo. No solamente indicar cun bueno es el individuo, sino tambin cun lejos est del ptimo. El proceso de seleccin intenta elegir dos padres de entre la poblacin para cruzarse y generar descendencia. Los enfoques clsicos son: Ruleta o Seleccin Proporcional: Con este mtodo la probabilidad que tiene un individuo de reproducirse es proporcional a su valor de funcin de evaluacin. Como primer paso para seleccionar un elemento es necesario sumar el valor de la funcin de fitness aplicada a cada uno de los elementos del conjunto que estn aptos para ser elegidos. Este ser el rango mximo. Luego se calculan los rangos individuales de cada uno de los individuos de la siguiente manera. Ordenando a todos los posibles individuos en un orden cualquiera se aplica la siguiente formula

C n = C n1 + f i C0 = 0

Donde fi es el valor de funcin de evaluacin aplicada a ese elemento

Figura 3 Esquema de seleccin proporcional

En otras palabras la probabilidad de que un individuo se elegido es la siguiente:

Seleccin por Ranking: En este tipo de seleccin, los individuos se ordenan segn su medida de desempeo y luego son asignados con una segunda medida de desempeo, inversamente proporcional a su posicin en el ranking (esto es, otorgando una mayor probabilidad a los mejores). Los valores de esta segunda asignacin pueden ser lineales o exponenciales. Finalmente, los individuos son seleccionados proporcionalmente a esta probabilidad. Este mtodo disminuye el riesgo de convergencia prematura que se produce cuando se utiliza seleccin de ruleta en poblaciones con unos pocos individuos con medidas de desempeo muy superiores a las del resto. Seleccin por Torneo: Este mtodo tiene un valor computacional muy bajo debido a su sencillez. Se selecciona un grupo de t individuos (normalmente t = 2, torneo binario) y se genera un nmero aleatorio entre 0 y 1. Si este nmero es menor que un cierto umbral K (usualmente 0,75), se selecciona para reproducirse al individuo con mejor adaptacin, y si este nmero es menor que K, se selecciona, por el contrario, al individuo con peor adaptacin. Seleccin aleatoria: Aleatoriamente se seleccionan dos padres de la poblacin. Seleccin de Boltzmann: Este mtodo de seleccin est tomado de la tcnica de recocido simulado (simulated annealing) en donde se simula el proceso de templado lento del metal para alcanzar un mnimo valor de la funcin en un problema de optimizacin (minimizacin). La variacin del parmetro de temperatura controla la taza de seleccin. La temperatura comienza siendo alta, lo que significa que la presin por seleccionar individuos es baja. Gradualmente se va reduciendo la temperatura, lo que incrementa de apoco la presin para selecciona individuos. Generalmente se utiliza un decrecimiento logartmico de la temperatura para evitar

mnimos locales. Una vez finalizada la fase de seleccin, los individuos sern cruzados (o combinados) para producir descendencia que se agregar a la siguiente generacin. Este esquema guarda una similitud con el esquema de reproduccin sexual en biologa. Hay dos grandes grupos de mtodos de cruce: Estrategias destructivas: Los descendientes se agregan a la poblacin temporal aunque sus padres tengan un mayor fitness. Estrategias no destructivas: La descendencia pasar a la siguiente generacin nicamente si supera el fitness de los padres (o de los individuos a remplazar). Al compartir las caractersticas buenas de dos individuos, la descendencia, o al menos parte de ella, debera tener un fitness mayor que cada uno de los padres por separado. Si el cruce no agrupa las mejores caractersticas en uno de los hijos y la descendencia tiene un peor fitness que los padres, no significa que se est dando un paso atrs. Optando por una estrategia de cruce no destructiva garantizamos que pasen a la siguiente generacin los mejores individuos. Si, an con un ajuste peor, se opta por insertar a la descendencia, y puesto que los genes de los padres continuarn en la poblacin - aunque dispersos y posiblemente levemente modificados por la mutacin - en posteriores cruces se podrn volver a obtener estos padres, recuperando as la bondad previamente prdida. La probabilidad de cruce es un parmetro crtico del algoritmo gentico que describe cun a menudo se realizar una cruza entre individuos. Si no hay cruce, la descendencia ser la copia exacta de los padres. Muchas veces es bueno ajustar este parmetro para que sobrevivan padres. Existen muchos algoritmos de cruce. Sin embargo los ms empleados son los que se detallarn a continuacin: Cruce de un punto: Es la tcnica ms sencilla, una vez elegidos los 2 individuos se selecciona al azar una posicin para subdividir los genes de ambos padres. Ya divididos se cruza la parte inicial del padre A con la parte final del padre B y viceversa.

Figura 4 Cruce de un punto

Cruce de dos punto: Consiste en una generalizacin de la tcnica anterior. En lugar de cortar por un nico punto, se seleccionan dos puntos de corte de la manera en la que se ilustra en la figura 5. Aunque se admite que el cruce de dos puntos aporta una sustancial mejora con respecto al cruce de un solo punto, el hecho de aadir un mayor nmero de puntos de cruce reduce el rendimiento del Algoritmo Gentico. El problema principal de aadir nuevos puntos de cruce radica en que es ms fcil que los segmentos originados sean corrompibles, es decir, que por separado quizs pierdan las caractersticas de bondad que posean conjuntamente. Sin embargo no todo son desventajas y aadiendo ms puntos de cruce se consigue que el espacio de bsqueda del problema sea explorado ms a fondo.

Figura 5 Cruce de dos puntos

Cruce multipunto: En lugar de seleccionar dos puntos, se seleccionan n puntos para operar el cruce. Cruce uniforme: Cada gen de la descendencia tiene las mismas probabilidades de pertenecer a uno u otro padre. Aunque se puede implementar de muy diversas formas, la tcnica implica la generacin de una mscara de cruce con valores binarios. En esta tcnica se genera una ristra de valores binarios al azar del mismo largo que el cromosoma. Para N > 0 y N <= que el largo del cromosoma padre, si en la posicin N aparece un 1 se toma el cromosoma del padre A de la posicin N y se lo asigna a la posicin N del cromosoma hijo. En caso contrario, se toma el gen del padre B y se lo asigna al del hijo. Para generar el otro descendiente simplemente se invierten los 0 y 1 en la mscara y se repite la operacin. Cruce entre tres padres: En esta tcnica, se eligen tres padres. Cada bit del primero se compara con el del segundo, si son iguales, el bit se toma para la descendencia, sino, se toma el bit del tercero. Cruce con delegacin reducida: Restringe el cruce para producir siempre nuevos individuos (cuando sea

posible). Se implementa restringiendo la ubicacin de los puntos de cruce de tal manera que el cruce slo ocurra cuando los valores de los genes difieren. La mutacin permite mantener diversidad en la poblacin disminuyendo el riesgo de convergencia prematura. A la vez cumple una funcin de exploracin ya que este operador brinda la posibilidad de generar cualquier estructura vlida dentro del espacio de bsqueda. Durante la aplicacin del operador de mutacin, cada gen es mutado con una probabilidad de mutacin que es uno de los parmetros del algoritmo gentico. Esta probabilidad es generalmente baja. La probabilidad puede ser constante durante toda la bsqueda gentica o bien adaptativa. En el primer caso no se comparte informacin, en cambio en el segundo caso, se utilizan frecuentemente estadsticas de la poblacin para adaptar la velocidad de mutacin. A continuacin se describen las tcnicas de mutacin ms comunes: Flipping : Se cambia un bit de 0 a 1 o vice versa. Se genera un cromosoma de mutacin al azar que va a funcionar como una mscara para hacer flipping en cada bit del cromosoma del padre seleccionado. Intercambio: Dos posiciones aleatorias dentro del cromosoma son intercambiadas. Reversin: Se selecciona una posicin aleatoria del cromosoma del padre, y a partir de esa posicin, se revierten todos los bits al complemento. El proceso de reemplazo graficado en la figura 2 es la ltima etapa del proceso. Por ejemplo, dos padres producen dos hijos como descendencia, pero no son aceptados los cuatro en la nueva poblacin, sino que dos deben ser remplazados. Las alternativas ms comunes son: Remplazo aleatorio: Los hijos reemplazan dos individuos seleccionados aleatoriamente de la poblacin anterior, siendo sus padres tambin candidatos para ser seleccionados. Remplazo del padre dbil: Un padre con menos fitness es reemplazado por un hijo con ms fitness. En el caso de dos padres con dos hijos, slo los dos con mayor fitness vuelven a la poblacin. Remplazo de ambos padres: Los hijos siempre remplazan a los padres. Las condiciones de corte para el algoritmo gentico son las siguientes: Parmetro de Mximas generaciones alcanzado Tiempo mximo alcanzado Cuando no hay cambios en el fitness por una cantidad paramtrica de generaciones

Por qu funcionan los algoritmos genticos Michalewicz explica por qu funcionan los algoritmos genticos en [1], en trminos de sus fundamentos tericos, que recaen en la representacin binaria de las soluciones y en la nocin de esquema, que es una construccin que funciona como una mscara para representar familias de cromosomas12. Se define el orden de un esquema como la cantidad de posiciones fijas que el esquema define (no asteriscos). La longitud de un esquema se define como la distancia posicional entre el primer bit fijo y el ltimo bit fijo. Se define tambin el fitness promedio de un esquema como el promedio de la evaluacin de la funcin de fitness para todos los cromosomas que encajen en el esquema en ese momento en particular. De esto ltimo se deduce que los esquemas que estn por encima del promedio del fitness de la poblacin, recibirn una mayor cantidad de cromosomas en la prxima generacin. El teorema del esquema afirma que los esquemas cortos (de baja longitud), de bajo orden, por encima de la media reciben incrementos exponenciales en la cantidad de cromosomas que representan en las subsecuentes generaciones de un algoritmo gentico. De este teorema se desprende la hiptesis de los building blocks que dice que un algoritmo gentico converge y encuentra soluciones cercanas a la ptima mediante la yuxtaposicin de esquemas cortos, de bajo orden y alto rendimiento, llamados building blocks.

12 Por ejemplo, un esquma podra ser el siguiente: [*1*000] que denotara la siguiente familia de cromosomas: {(010000), {110000},{011000},{111000}}

La optimizacin de los algoritmos genticos A lo largo de los aos se han hecho investigaciones acerca de cmo optimizar algoritmos genticos. A modo de catlogo se incluyen algunas posibilidades que han influido en la creacin de diversas tcnicas. Tamao de poblacin variable: Se ha demostrado que en algunos casos es conveniente que el tamao de la poblacin no sea un parmetro fijo, sino un parmetro adaptativo. Codificacin de los cromosomas adaptada a la problemtica: Ejemplo de esto puede ser la codificacin de coma flotante en vez de la binaria, la codificacin de gray. Operadores de cruce especficos para una problemtica: Es tpico de la programacin evolutiva. Introduccin de funciones de penalidad Tcnicas de inicializacin de poblaciones ms complejas. Hibridacin: Es decir, incorporar otras tcnicas de optimizacin para mejorar el proceso evolutivo. Tcnicas de reparacin de individuos no factibles Mantenimiento de poblaciones factibles mediante el uso de representaciones especficas y operadores genticos modificados. Sistemas auto adaptativos que ajusten los parmetros a lo largo de la ejecucin del algoritmo gentico. Modelos altamente paralelizables Sistemas co-evolutivos en donde dos o ms sistemas evolutivos corren con diferentes poblaciones, pero en simultneo haciendo una analoga de lo que podran ser parsitos o quizs depredadores. Enfoques diploides o multiploides: En general se toma el modelo bsico (haploide) en donde un slo cromosoma especifica la informacin de un individuo. En los enfoques diploides o multiploides, incorpora varios candidatos para cada gen dentro de un genotipo y utiliza algn tipo de mecanismo de prevalencia (gen dominante o recesivo) para decidir qu gen se expresa en el fenotipo. Reglas de prevencin de incestos. Seleccionando un framework de trabajo Hay una diversa gama de herramientas para la programacin de algoritmos genticos y programacin evolutiva. Hay herramientas libres y privativas, en todas las plataformas posibles. De entre todas ellas, se ha seleccionado JGAP 13 en particular por sus caractersticas. Entre sus cualidades se encuentra la posibilidad de paralelizar el procesamiento de los algoritmos en una grid propia de los fabricantes, o montar una con el framework provisto. Est construida en Java, lo que puede provocar dudas a la hora de analizar la performance. Pero a la hora de evaluar ventajas arquitectnicas, conviene destacar que facilita la integracin con cualquier modelo de dominio empresarial, ya que se evidencia que ha sido diseado con una lgica de framework integrable. JGAP es un Framework para la creacin de algoritmos genticos y programacin evolutiva. Proporciona los mecanismos bsicos de gentica que puede ser fcilmente utilizado para aplicar los principios evolutivos a la solucin de problemas JGAP fue diseado para ser muy fcil de usar y adems tiene un diseo altamente modular para que cualquier aventurero pueda generar nuevas operaciones genticas o subcomponentes para extender sus funcionalidades. La documentacin, la calidad y la estabilidad del cdigo fueron un los puntos en los que ms se enfocaron a la hora de desarrollar este software. Se pueden encontrar una gran cantidad de test unitarios (ms de 1400), el cdigo fuente est altamente comentado y se pueden encontrar muchos ejemplos de cmo utilizar este Framework El problema de la Mochila El problema de la mochila o knapsack problem es un problema de optimizacin combinatoria. Modela una situacin anloga al llenar una mochila, con cierta capacidad (incapaz de soportar ms de un peso determinado), con todo o parte de un conjunto de objetos, cada uno con un peso y valor especficos. Los objetos colocados en la mochila deben maximizar el valor total sin exceder el peso mximo. Consideremos n tipos de tems, que van del 1 al n. Cada tipo de tem i tiene un valor vi y un peso wi. Usualmente se asume que los valores y pesos no son negativos. Para simplificar la representacin, se suele asumir que los tems estn listados segn su peso en orden creciente. El peso mximo o capacidad soportada por la mochila es W. Se restringe el nmero xi de copias de cada tipo de tem a un valor ci entero mximo para cada elemento. El problema de optimizacin queda expresado en los siguientes trminos: 13 http://jgap.sourceforge.net

Maximizar tal que

En sencillo pensar que un solver de programacin lineal entera (o mixta) puede resolver fcilmente muchas instancias de este problema. Se ejemplifica a continuacin un algoritmo gentico (programa evolutivo) que modele esta problemtica. Para darle un corte concreto, se define la lista de tems de la siguiente manera:
public final static String[] itemNames = { "Torch", "Banana", "Miniradio", "TV", "Gameboy", "Small thingie", "Medium thingie", "Big thingie", "Huge thingie", "Gigantic thingie"};

Y sus respectivos pesos o volmenes de la siguiente manera:


public final static double[] itemVolumes = { 50.2d, 14.8d, 27.5d, 6800.0d, 25.0d, 4.75d, 95.36d, 1500.7d, 18365.9d, 83571.1d};

Ahora se configurar la estructura del cromosoma. Cada gen estar codificado por un nmero entero que representar la cantidad de un tem en particular a incorporar a la mochila. Posicionalmente se utilizar el orden propuesto en la nomenclatura de los tems. La inicializacin en queda de la siguiente manera:
Gene[] sampleGenes = new Gene[itemVolumes.length]; for (int i = 0; i < itemVolumes.length; i++) { sampleGenes[i] = new IntegerGene(conf,0,(int) Math.ceil(a_knapsackVolume/itemVolumes[i])); } IChromosome sampleChromosome = new Chromosome(conf, sampleGenes); conf.setSampleChromosome(sampleChromosome);

En cuanto al tamao de la poblacin, se ajusta a 50 individuos:


conf.setPopulationSize(50);

Posteriormente se inicializa la poblacin aleatoriamente:


population = Genotype.randomInitialGenotype(conf);

Ahora se procede a la mecnica gentica, se har evolucionar la poblacin una cantidad paramtrica de veces (1000 en este caso) dado que no se conoce cundo se llega al ptimo:
for (int i = 0; i < MAX_ALLOWED_EVOLUTIONS; i++) { population.evolve(); }

En cuanto a la funcin de fitness utilizada, se incorporar a una clase que extienda la clase abstracta FitnessFunction de Jgap:
public double evaluate(IChromosome a_subject) { // El valor de fitness mide tanto cun cerca estamos del ptimo, as como del nmero total // de tems representados en la solucin. double totalVolume = getTotalVolume(a_subject); int numberOfItems = getTotalNumberOfItems(a_subject); double volumeDifference = Math.abs(m_knapsackVolume - totalVolume); double fitness = 0.0d; // 1) Determinar la distance entre la cantidad representada por la solucin y el objetivo fitness += volumeDifferenceBonus(MAX_BOUND, volumeDifference); // 2) Dividir el valor de fitness por una penalidad basada en el nmero de tems fitness -= computeItemNumberPenalty(MAX_BOUND, numberOfItems); // Nos aseguramos que el fitness sea siempre positivo // -------------------------------------------

return Math.max(1.0d, fitness);

protected double volumeDifferenceBonus(double a_maxFitness, double a_volumeDifference) { if (a_volumeDifference == 0) { return a_maxFitness; } else { // Arbitrariamente se trabaja con la mitad del fitnes menos el cuardado de la diferencia de // volumen } return a_maxFitness / 2 - (a_volumeDifference * a_volumeDifference);

protected double computeItemNumberPenalty(double a_maxFitness, int a_items) { if (a_items == 0) { return 0; } else { // A ms items, ms penalidad, pero nunca mayor que el fitness mximo // Se intenta evitar el comportamiento lineal, por lo que se una penalidad exponencial } return (Math.min(a_maxFitness, a_items * a_items));

Por defecto JGAP utilizar un selector determinado para elegir qu individuos permanecern en la siguiente generacin. Este selector es el BestChromosomeSelector, cuya implementacin toma los n cromosomas con mayor fitness, siendo n el tamao de la poblacin. Tambin se utiliza el mecanismo de reproduccin por defecto, que incluye las probabilidades de cruce y mutacin parametrizadas en dicha configuracin. Se utilizar el mecanismo de cruce por un punto simple y la mutacin por flipping aleatoria. La corrida del ejemplo demor 400ms en un procesador i7 con 8Gb de RAM. Y para un volumen de mochila de 58833235cm3 la corrida arroj los siguientes resultados:
---------------------------------------------The best solution has a fitness value of 1.0 It contained the following: 4711 x Torch 2475534 x Banana 1442421 x Miniradio 4572 x TV 222073 x Gameboy 4437032 x Small thingie 23831 x Medium thingie 24931 x Big thingie 615 x Huge thingie 668 x Gigantic thingie --------------------------------------------------------------------------------

Un Algoritmo para la deduccin de reglas de asociacin en una tabla de hechos ([2]) El algoritmo que se presenta pertenece a una rama del data mining 14 llamada knowledge discovery in databases, que refiere al conjunto de actividades existentes en el proceso de encontrar conocimiento til a partir de datos. Los algoritmos denominados Association rule learning son algoritmos que intentan descubrir reglas de asociacin entre los elementos de los datos. Las reglas de asociacin son utilizadas en data mining y en aprendizaje automtico para descubrir hechos que se dan en un determinado conjunto de datos. El ejemplo tpico (incluso difundido en Wikipedia) es el del supermercado, donde definiendo la siguiente regla: {cebollas, vegetales} => {carne} Aplicada en los datos de ventas de un supermercado, indicara que un consumidor que compra cebollas y vegetales a la vez, es altamente probable que compre tambin carne. Esta informacin se puede utilizar como base para
14 A su vez, rama de la ciencia de la computacin.

tomar decisiones sobre marketing como precios promocionales para ciertos productos o donde ubicar stos dentro del supermercado. Adems del ejemplo anterior aplicado al anlisis de la cesta de la compra, hoy en da, las reglas de asociacin tambin son de aplicacin en otras muchas reas como el Web mining, la deteccin de intrusos o la bioinformtica. Segn la definicin original en [8] el problema de minera de reglas de asociacin se define como: Sea I={i1,i2,...,in} un conjunto de n atributos binarios llamados tems. Sea D={t1,t2,...,tm} un conjunto de hechos almacenados en una base de datos. Cada transaccin en D tiene un id (identificador) nico y contiene un subconjunto de tems de I. Una regla se define como una implicacin de la forma X => Y dnde y Los conjuntos de tems X e Y se denominan respectivamente antecedente (o parte izquierda) y consecuente (o parte derecha) de la regla. En la siguiente tabla se pueden observar un conjunto de tems I= {Cebollas, Vegetales, Carne, Cerveza} y una pequea conjunto de transacciones D donde 0 representa la ausencia y 1 la presencia de el tem en la compra de un supermercado:
Transaccin 1 2 3 4 5 Cebollas 1 0 0 1 0 Vegetales 1 1 0 1 1 Carne 1 1 0 0 0 Cerveza 1 0 1 0 0

Tabla 2 Ejemplo de tabla de hechos para ilustrar el caso del supermercado

Un ejemplo de regla podra ser la vista anteriormente: {cebollas, vegetales} => {carne} Estrictamente, para que estas reglas tengan cierta validez, deben ser obtenidas a partir de un conjunto mucho ms grande de datos. Cuando se calculan estas reglas en general se tienen en cuenta un conjunto de restricciones que deben de cumplir para que sean vlidas. Las restricciones ms importantes son la de mnimo support ([8]), la de mnimo confidence ([8]), la de lift ([9]) y la de leverage ([9]): Support (soporte): El support sup(X) de una tupla X est definido como la proporcin de transacciones en el conjunto de datos que contienen esta tupla. En el ejemplo antes descripto la tupla {cebollas, vegetales, carne} tiene un support de 1/5 = 0,2 ya que ocurre en un 20% de la transacciones. Para computar el soporte de todos los conjuntos de tems se emplean tambin por lo general dos mecanismos: 1. Determinar el valor del soporte contando directamente sus ocurrencias en la base de datos. 2. Determinar el soporte empleando la interseccin entre conjuntos. Un tid es un identificador nico de una transaccin. Para cada tem se genera un tidlist, el conjunto de identificadores que se corresponden con las transacciones que contienen a este tem. Existe tambin para cada conjunto de tems X un tidlist denotado con X.tidlist. El tidlist de un candidato C = X U Y es obtenido por la interseccin de los tidlist de los conjuntos de tems de X e Y, o sea, C.tidlist = X.tidlist Y.tidlist. Confidence (confianza): Se define de la siguiente manera:

conf ( X Y ) =

sup( X Y ) sup( X )

Por ejemplo, la regla {cebolla, vegetales} => {carne} tiene una confidence de 0,2 / 0,4 = 0,5 en este conjunto de datos, lo que significa que para el 50% de las transacciones que contienen cebollas y vegetales la regla es correcta. Lift (mejora de la confianza): Indica cul es la proporcin entre el soporte observado de un conjunto de productos respecto del soporte terico de ese conjunto dado el supuesto de independencia. Un valor de lift = 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado bajo condiciones de independencia. Un valor de lift > 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relacin que hace que los productos se encuentren en el conjunto ms veces de lo normal). Un valor de lift < 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relacin que hace que los productos no estn formando parte del mismo conjunto ms veces de lo normal): lift ( X => Y ) =

sup( X Y ) sup(Y ) sup( X )

Conviction: Consiste en la frecuencia con la que la regla hace una suposicin incorrecta si X e Y fueran independientes:

conv ( X => Y ) =

1 sup( X Y ) 1 conf ( X Y )

El algoritmo que se presenta15 es un algoritmo del tipo gentico cuyo objetivo es encontrar reglas de asociacin dentro de un conjunto de datos. Est pensado para descubrir reglas de asociacin dentro de conjuntos con datos discretos. Por lo que las reglas generadas de por este algoritmo son del tipo antecedente entonces consecuente y las condiciones a ser satisfechas por cada una de estas partes tienen el operador categrico =. El antecedente de cada regla est compuesto por una serie de condiciones relativas a los valores de ciertos atributos que han de ser todas satisfechas. Por el contrario, el consecuente est compuesto por una sola condicin. Respecto de la codificacin de los cromosomas, existen dos enfoques: El enfoque Cromosoma = Regla El enfoque Cromosoma = Base de Reglas tambin denominado enfoque Pittsburgh. En el primero, cada individuo (cromosoma) codifica una nica regla y en el segundo, un conjunto de reglas. En el algoritmo que se presenta, se ha elegido la segunda opcin. Cada genotipo generado por el algoritmo gentico representara un conjunto de reglas posibles. Los individuos que sobrevivan a las operaciones genticas son aquellos que dentro de sus conjuntos de reglas contengan las de mayor valor de fitness. Este algoritmo no necesita ningn tipo de template o patrn de inicializacin, sino que comienza con una poblacin inicial elegida al azar y evoluciona quedndose con los individuos cuya funcin de fitness sea mayor. En cuanto a la funcin de fitness seleccionada, consta de dos etapas. En primer lugar se calculan todas las reglas posibles para un dado cromosoma: Cada cromosoma representa a un conjunto de reglas que estn formadas por las combinaciones de los genes de este cromosoma. Por ejemplo, si tenemos el siguiente cromosoma {(a=1),(b=2), (c=3)} podemos formar las siguientes reglas: Si a=1 entonces b=2 Si a=1 entonces c=3 Si b=2 entonces c=3 Si b=1 entonces a=1 Si c=3 entonces a=1 Si c=3 entonces b=2 Si a=1 y b=2 entonces c=3 Si a=1 y c=3 entonces b=2 Si b=2 y c=3 entonces a=1 En las reglas generadas se busca que los conjuntos del antecedente sean linealmente independientes entre s. El resto de las combinaciones entre los elementos del antecedente no agregan informacin al resultado. Adems, como es de esperar, la funcin de fitness devuelve el mismo valor tanto para a=1 y b=2 entonces c=3 como para b=2 y a=1 entonces c=3. Obviamente no se evala igual cualquier permutacin, ya que pasar el consecuente al antecedente deba cambiar obligatoriamente el valor de fitness. Una vez que se han calculado todas las reglas posibles para un dado cromosoma, se calcula la funcin de fitness de cada una de ellas. La frmula utilizada es la siguiente: Fitness = Support + (Confidence * 10) Como para este problema nos interesaba favorecer las reglas de mayor confidence hemos multiplicado el valor del confidence de cada regla por una constante haciendo que las reglas de mayor confidence sobrevivan ms fcilmente. Usamos el support para ordenar las reglas de mayor confidence. Finalmente guardamos el valor de fitness mas alto dentro del conjunto de reglas y es el que le asignamos al cromosoma. De esta manera los cromosomas que tienen ms probabilidades de sobrevivir son aquellos con reglas ms fuertes. La base de datos utilizada para el ejemplo ha sido una extraccin de 200.000 del censo de habitantes de Estados Unidos de 1990, obtenido del sitio http://kdd.ics.uci.edu/ en donde pueden encontrarse conjuntos de datos muy valiosos a la hora de probar los algoritmos. La misma est disponible entre los fuentes del proyecto, en un script SQL DML. Respecto del modelo del dominio de la problemtica, se decidi implementar las siguientes clases:
/** * Regla * Posee un conjunto de tems (clause) en la parte izquiera (antecedente) y un tem * (clause) en la parte derecha (consecuente) * Tambin dispone de una denormalizacin que se llama completeRule y describe el conjunto

15 El algoritmo generado en [2] que se presenta en este trabajo se encuentra disponible en la siguiente URL:
http://sourceforge.net/projects/garulediscovery/

de tems involucrados en la regla.

*/ public class Rule { private Set<Clause> leftPart; private Clause rightPart; private List<Clause> completeRule ;

/** * Item (Clause) representa un valor atmico a asociar en una regla y que se encuentra en la * base de datos como dato de cualquier columna. */ public class Clause implements Comparable{ private String name; private String value;

Como regla de seleccin se ha elegido el BestChromosomeSelector, cuya implementacin toma los n cromosomas con mayor fitness, siendo n el tamao de la poblacin. Con respecto al operador de cruza, se ha seleccionado la cruza en un slo punto con una probabilidad del 35%, como puede observarse en constructur de la clase RuleDiscoveryAlgorithmConfiguration:
this.conf.addGeneticOperator(new CrossoverOperator(this.conf, 0.35d));

El operador de mutacin utilizado es el estndar, que recorre todos los genes de los cromosomas de la poblacin e intenta cambiarlos de acuerdo a la probabilidad de mutacin, que se fij en el 12%, como puede observarse en constructur de la clase RuleDiscoveryAlgorithmConfiguration:
this.conf.addGeneticOperator(new MutationOperator(this.conf, 12));

Con respecto a la interaccin con la base de datos, se ha codificado una clase SqlReader que implementa las operaciones de buscar la configuracin bsica de un cromosoma (posibilidades), el clculo del soporte para un cromosoma, y la confianza del mismo, como puede verse a continuacin:
public IChromosome getConfigCromosome(Configuration conf, String columns) throws InvalidConfigurationException { String [] columnNames = columns.split(","); Gene[] sampleGenes = new Gene[columnNames.length]; JdbcTemplate jdbcTemplate = new JdbcTemplate(dataSource); for (int i = 0 ; i < columnNames.length ; i++ ){ String columnName = columnNames[i]; List<String> values = jdbcTemplate.queryForList("select "+columnName+" from "+table+" group by "+columnName, String.class); MySetGene g = new MySetGene(conf); for (String value : values) { g.addAllele(value); g.setAllele(value); } g.setApplicationData(columnName); sampleGenes[i] = g; } IChromosome sampleChromosome = new Chromosome(conf, sampleGenes); } return sampleChromosome;

public float getSupport(List<Clause> chromosome, long rowCount) { Float suportX; List<Clause> orderedChromosome = new ArrayList<Clause>(chromosome); Collections.sort(orderedChromosome); suportX = supportCache.get(orderedChromosome.hashCode());

if (suportX == null) { StringBuffer sql = new StringBuffer("select count(*) from "+table+" where "); for (int i = 0 ; i<chromosome.size(); i++) { Clause clause = chromosome.get(i); if (i!=0) { sql.append ( " and " ); } sql.append ("`"); sql.append ( clause.getName() ); sql.append ("`"); sql.append ( " = '" ); sql.append (clause.getValue()); sql.append ("' "); } String sqlString = sql.toString(); JdbcTemplate jdbcTemplate = new JdbcTemplate(dataSource); suportX = Float.valueOf(jdbcTemplate.queryForLong(sqlString)); supportCache.put(orderedChromosome.hashCode(), suportX);

} float returnValue = suportX /rowCount; return returnValue;

public float getConfidence(List<Clause> chromosome, long rowCount) { Float supportXY = getSupport(chromosome, rowCount); Float supportX = getSupport(chromosome.subList(0, chromosome.size() -1), rowCount); float returnValue = supportX == 0 ? 0 : (supportXY / supportX); return returnValue; }

A continuacin se transcribe una corrida que tard 16 segundos en un procesador i7 con 8Gb de RAM y que incorpor a una base H2 (in memmory) 200.000 registros para luego correr el algoritmo con los siguientes parmetros:
public public public public static static static static final final final final int int int int

MAX_ALLOWED_EVOLUTIONS = 7; MAX_RESULTS = 20; POPULATION_ZISE=30; MAX_RULE_DEEP = 4;

Regla: "marital_stat = Never married -> salary = less_50000" support:43 confidence:99 fitness:1030 Regla: "citizenship = Native- Born in the United States , marital_stat = Never married -> salary = less_50000" support:39 confidence:99 fitness:1027 Regla: "sex = Female -> salary = less_50000" support:51 confidence:97 fitness:1025 Regla: "citizenship = Native- Born in the United States -> salary = less_50000" support:83 confidence:94 fitness:1020 Regla: "race = White , marital_stat = Never married -> salary = less_50000" support:34 confidence:99 fitness:1020 Regla: "citizenship = Native- Born in the United States , sex = Female -> salary = less_50000" support:45 confidence:97 fitness:1019 Regla: "citizenship = Native- Born in the United States , race = White , marital_stat = Never married -> salary = less_50000" support:31 confidence:99 fitness:1018 Regla: "race = White , sex = Female -> salary = less_50000" support:42 confidence:97 fitness:1015 Regla: "marital_stat = Never married , sex = Female -> salary = less_50000" support:21 confidence:99 fitness:1011 Regla: "race = White -> salary = less_50000" support:78 confidence:93 fitness:1011 Regla: "citizenship = Native- Born in the United States , race = White , sex = Female -> salary = less_50000" support:38 confidence:97 fitness:1010 Regla: "citizenship = Native- Born in the United States , marital_stat = Never married , sex = Female -> salary = less_50000" support:19 confidence:99 fitness:1010 Regla: "race = White , marital_stat = Never married , sex = Female -> salary = less_50000" support:16 confidence:99 fitness:1006 Regla: "sex = Male , marital_stat = Never married -> salary = less_50000" support:22 confidence:98 fitness:1006 Regla: "citizenship = Native- Born in the United States , race = White -> salary = less_50000" support:71 confidence:93 fitness:1002 Regla: "marital_stat = Never married , sex = Female , education = 10th grade -> salary = less_50000" support:1 confidence:100 fitness:1001 Regla: "education = 7th and 8th grade , marital_stat = Never married , sex = Female -> salary = less_50000" support:1 confidence:100 fitness:1001 Regla: "education = 7th and 8th grade , citizenship = Native- Born in the United States , marital_stat = Never married -> salary = less_50000" support:1 confidence:100 fitness:1001 Regla: "citizenship = Native- Born in the United States , sex = Female , education = 12th grade no

diploma -> salary = less_50000" support:< 1 confidence:100 fitness:1000 Regla: "marital_stat = Married-A F spouse present , citizenship = Native- Born in the United States , sex = Female -> salary = less_50000" support:< 1 confidence:98 fitness:981

Comparacin de resultados con otros mtodos En este anlisis, slo se utilizaron herramientas libres. Las mismas son: Weka, es una herramienta desarrollada en Java la cual fue realizada por un grupo de estudiantes de Nueva Zelanda. Esta herramienta utiliza incluso un formato propio para procesar los datos cuya extensin es arff. Este software posibilita conectarse con una base de datos, aunque para procesar los datos requiere almacenarlos en memoria, por lo tanto tiene una limitante importante. Este software permite ejecutar el algoritmo A priori16. Tanagra: es una herramienta de origen francs. Utiliza una versin mejorada del algoritmo A priori, denominado A priori PT. Este algoritmo es mas rpido que el anterior. La desventaja que tiene esta herramienta es que no es posible procesar los datos de una base de datos directamente, vale decir, es necesario bajar los datos a un archivo fsico, y luego alimentar la herramienta con ese dataset, cuya extensin tambin puede ser arff. Rapid Miner: esta herramienta permite conectarse directamente a una base de datos, aunque funciona de manera similar a Weka, es decir copia en memoria los datos de la base de datos. Es tambin muy til para transformar diferentes formatos de archivos, csv, txt, arff, etc. Utilizando el mismo conjunto de datos que en nuestro algoritmo pero exportado a un archivo fsico con extensin ARFF se utilizo el siguiente esquema en Rapid Miner para obtener las reglas de asociacin:

Figura 2 Esquema de Rapid Miner para obtener las reglas de asociacin

Con un support mnimo de 0.1, los resultados obtenidos son los siguientes:
Antecedente salary = less_50000 race = White sex = Female sex = Female sex = Male marital_stat = Never married Conseq race = White salary = less_50000 salary = less_50000 race = White salary = less_50000 salary = less_50000 Support 0.78261 0.78261 0.507405 0.43383 0.43094 0.426615 Confidence 0.83403226 0.93274457 0.97447642 0.83317489 0.89909348 0.98727191

16 El algoritmo A priori primero busca todos los conjuntos frecuentes unitarios (contando sus ocurrencias directamente en la base de datos), se mezclan stos para formar los conjuntos de tems candidatos de dos elementos y seleccionan entre ellos los frecuentes. Considerando la propiedad de los conjuntos de tems frecuentes, vuelve a mezclar stos ltimos y selecciona los frecuentes, (notemos que hasta el momento ya han sido generados todos los conjuntos de tems frecuentes de tres o menos elementos). As sucesivamente se repite el proceso hasta que en una iteracin no se obtengan conjuntos frecuentes.

sex = Female salary = less_50000, sex = Female race = White, sex = Female sex = Male marital_stat = Married-civilian spouse present marital_stat = Married-civilian spouse present sex = Male salary = less_50000, sex = Male race = White, sex = Male marital_stat = Never married marital_stat = Never married salary = less_50000, marital_stat = Never married race = White, marital_stat = Never married marital_stat = Married-civilian spouse present race = White, marital_stat = Married-civilian spouse present salary = less_50000, marital_stat = Married-civilian spouse present education = Children education = Children education = Children salary = less_50000, education = Children marital_stat = Never married, education = Children education = High school graduate sex = Male, marital_stat = Never married education = High school graduate sex = Female, marital_stat = Never married sex = Female, marital_stat = Married-civilian spouse present education = High school graduate salary = less_50000, education = High school graduate race = White, education = High school graduate sex = Male, marital_stat = Married-civilian spouse present education = Children education = Children salary = less_50000, education = Children race = White, education = Children education = Children education = Children

salary = less_50000, race = White race = White salary = less_50000 race = White race = White salary = less_50000 salary = less_50000, race = White race = White salary = less_50000 race = White salary = less_50000, race = White race = White salary = less_50000 salary = less_50000, race = White salary = less_50000 race = White salary = less_50000 marital_stat = Never married salary = less_50000, marital_stat = Never married marital_stat = Never married salary = less_50000 salary = less_50000 salary = less_50000 race = White salary = less_50000 salary = less_50000 salary = less_50000, race = White race = White salary = less_50000 race = White race = White salary = less_50000, race = White race = White salary = less_50000 race = White, marital_stat = Never married salary = less_50000, race = White, marital_stat = Never married

0.42213 0.42213 0.42213 0.40521 0.376675 0.374935 0.36048 0.36048 0.36048 0.342465 0.33768 0.33768 0.33768 0.3324 0.3324 0.3324 0.23637 0.236335 0.236335 0.236335 0.236335 0.23345 0.219135 0.20964 0.20748 0.20256 0.20072 0.20072 0.20072 0.18962 0.188715 0.188715 0.188715 0.188715 0.18869 0.18869

0.81070492 0.83193898 0.97303091 0.84541159 0.89080052 0.88668559 0.75208896 0.83649696 0.88961279 0.79253208 0.78145864 0.79153335 0.98602777 0.78609436 0.88245835 0.88655367 1 0.99985193 0.99985193 0.99985193 1 0.96036366 0.98401401 0.86241438 0.99073632 0.96360782 0.8257194 0.85979867 0.95745087 0.89174191 0.79838812 0.79838812 0.79838812 1 0.79828235 0.79828235

salary = less_50000, education = Children marital_stat = Never married, education = Children marital_stat = Never married, education = Children salary = less_50000, marital_stat = Never married,

race = White, marital_stat = Never married race = White salary = less_50000, race = White race = White

0.18869 0.18869 0.18869 0.18869

0.79828235 0.79840058 0.79840058 0.79840058

education = Children race = White, education = Children race = White, education = Children salary = less_50000, race = White, education = Children race = White, marital_stat = Never married, education = Children sex = Female, marital_stat = Married-civilian spouse present sex = Female, marital_stat = Married-civilian spouse present salary = less_50000, sex = Female, marital_stat = Married-civilian spouse present race = White, sex = Female, marital_stat = Marriedcivilian spouse present sex = Male, marital_stat = Never married sex = Male, marital_stat = Never married salary = less_50000, sex = Male, marital_stat = Never married race = White, sex = Male, marital_stat = Never married sex = Male, marital_stat = Married-civilian spouse present sex = Female, marital_stat = Never married sex = Female, marital_stat = Never married salary = less_50000, sex = Female, marital_stat = Never married race = White, sex = Female, marital_stat = Never married race = White, sex = Male, marital_stat = Married-civilian spouse present salary = less_50000, sex = Male, marital_stat = Marriedcivilian spouse present marital_stat = Married-civilian spouse present, education = High school graduate marital_stat = Married-civilian spouse present, education = High school graduate sex = Female, education = High school graduate education = Some college but no degree marital_stat = Married-civilian spouse present, education = High school graduate salary = less_50000, marital_stat = Married-civilian spouse present, education = High school graduate race = White, marital_stat = Married-civilian spouse present, education = High school graduate education = Some college but no degree sex = Male, education = Children sex = Male, education = Children sex = Male, education = Children salary = less_50000, sex = Male, education = Children sex = Male, marital_stat = Never married, education = Children sex = Female, education = Children sex = Female, education = Children sex = Female, education = Children salary = less_50000, sex = Female, education = Children marital_stat = Never married salary = less_50000, marital_stat = Never married marital_stat = Never married salary = less_50000 race = White salary = less_50000, race = White race = White salary = less_50000 race = White salary = less_50000, race = White race = White salary = less_50000 salary = less_50000 race = White salary = less_50000, race = White race = White salary = less_50000 salary = less_50000 race = White salary = less_50000 race = White salary = less_50000 salary = less_50000 salary = less_50000, race = White race = White salary = less_50000 race = White salary = less_50000 marital_stat = Never married salary = less_50000, marital_stat = Never married marital_stat = Never married salary = less_50000 salary = less_50000 marital_stat = Never married salary = less_50000, marital_stat = Never married marital_stat = Never married 0.18869 0.18869 0.18869 0.18869 0.187055 0.180235 0.180235 0.180235 0.17879 0.175655 0.175655 0.175655 0.172375 0.163675 0.162025 0.162025 0.162025 0.152165 0.152165 0.1401 0.13298 0.13257 0.131525 0.126015 0.126015 0.126015 0.1204 0.11986 0.119835 0.119835 0.119835 0.119835 0.11651 0.1165 0.1165 0.1165 0.99986753 0.99986753 0.99986753 1 0.88984825 0.8574045 0.88978574 0.96354014 0.80284694 0.78876939 0.8015835 0.98246546 0.8106424 0.78156337 0.77368446 0.78091864 0.98991905 0.80247337 0.88275562 0.94934779 0.90110114 0.98722866 0.93632092 0.85390479 0.89946467 0.9476237 0.85712252 1 0.99979142 0.99979142 0.99979142 1 1 0.99991417 0.99991417 0.99991417

sex = Female, marital_stat = Never married, education = Children sex = Female, education = High school graduate sex = Female, education = High school graduate

salary = less_50000 race = White salary = less_50000, race = White

0.1165 0.115435 0.113905 0.113905

1 0.85962691 0.84823324 0.85920646

salary = less_50000, sex = Female, education = High race = White school graduate Tabla 2 - Resultados obtenidos con Rapid Miner

De las 86 reglas obtenidas por este algoritmo 25 coinciden con las que obtuvimos con el algoritmo propuesto. Con respecto a Weka, utilizando el mismo archivo ARFF generado con Rapid Miner, se han obtenido los siguientes resultados, con la siguiente parametrizacin:

Figura 2 Parametrizacin de Weka

De las 30 reglas obtenidas por esta herramienta con los parmetros indicados, solo 7 no fueron encontradas por el algoritmo propuesto, es decir un 23%. Cabe destacar que como se aprecia en la imagen anterior, el support mnimo establecido fue de 0.1, y como cantidad de reglas se especifico un mximo de 30. Cabe recalcar que el algoritmo A priori obtiene las mejores N reglas con los parmetros especificados, pero si se especifica un nivel alto de support, slo brindar las reglas que cumplen con esa condicin, por ejemplo si se especifica un support mayor que 0.7 (70%) slo se obtendr una regla que cumple con esa condicin:
race=White 167808 ==> salary=less_50000 156522 <conf:(0.93)> lift:(0.99) lev:(0) [-939] conv:(0.92)>

Los resultados obtenidos son los siguientes:

Figura 3 Resultados de Weka


===Runinformation=== Scheme:weka.associations.AprioriN30T0C0.9D0.05U1.0M0.1S1.0c1 Relation:RapidMinerDataweka.filters.unsupervised.attribute.RemoveR1,3,5,810 Instances:200000 Attributes:5 education marital_stat race sex salary ===Associatormodel(fulltrainingset)=== Minimumsupport:0.1(20000instances) Minimummetric<confidence>:0.9 Numberofcyclesperformed:18 Bestrulesfound: 1.education=Children47274==>salary=less_5000047274<conf:(1)>lift:(1.07)lev:(0.01) [2914]conv:(2914.68) 2.education=Childrenmarital_stat=Nevermarried47267==>salary=less_5000047267<conf:(1)> lift:(1.07)lev:(0.01)[2914]conv:(2914.25) 3.education=Childrenrace=White37743==>salary=less_5000037743<conf:(1)>lift:(1.07)lev: (0.01)[2327]conv:(2327.04) 4.education=Childrenmarital_stat=Nevermarriedrace=White37738==>salary=less_5000037738 <conf:(1)>lift:(1.07)lev:(0.01)[2326]conv:(2326.74) 5.education=Childrensex=Male23972==>salary=less_5000023972<conf:(1)>lift:(1.07)lev: (0.01)[1477]conv:(1477.99) 6.education=Childrenmarital_stat=Nevermarriedsex=Male23967==>salary=less_5000023967 <conf:(1)>lift:(1.07)lev:(0.01)[1477]conv:(1477.69) 7.education=Childrensex=Female23302==>salary=less_5000023302<conf:(1)>lift:(1.07)lev: (0.01)[1436]conv:(1436.68) 8.education=Childrenmarital_stat=Nevermarriedsex=Female23300==>salary=less_5000023300 <conf:(1)>lift:(1.07)lev:(0.01)[1436]conv:(1436.56) 9.education=Childrensex=Female23302==>marital_stat=Nevermarried23300<conf:(1)>lift: (2.31)lev:(0.07)[13230]conv:(4410.95) 10.education=Childrensex=Femalesalary=less_5000023302==>marital_stat=Nevermarried23300 <conf:(1)>lift:(2.31)lev:(0.07)[13230]conv:(4410.95) 11.education=Childrensex=Female23302==>marital_stat=Nevermarriedsalary=less_5000023300 <conf:(1)>lift:(2.34)lev:(0.07)[13359]conv:(4453.67) 12.education=Childrenrace=White37743==>marital_stat=Nevermarried37738<conf:(1)>lift: (2.31)lev:(0.11)[21428]conv:(3572.28) 13.education=Childrenrace=Whitesalary=less_5000037743==>marital_stat=Nevermarried37738 <conf:(1)>lift:(2.31)lev:(0.11)[21428]conv:(3572.28) 14.education=Childrenrace=White37743==>marital_stat=Nevermarriedsalary=less_5000037738 <conf:(1)>lift:(2.34)lev:(0.11)[21636]conv:(3606.88)

15.education=Children47274==>marital_stat=Nevermarried47267<conf:(1)>lift:(2.31)lev: (0.13)[26839]conv:(3355.77) 16.education=Childrensalary=less_5000047274==>marital_stat=Nevermarried47267<conf:(1)> lift:(2.31)lev:(0.13)[26839]conv:(3355.77) 17.education=Children47274==>marital_stat=Nevermarriedsalary=less_5000047267<conf:(1)> lift:(2.34)lev:(0.14)[27099]conv:(3388.28) 18.education=Childrensex=Male23972==>marital_stat=Nevermarried23967<conf:(1)>lift:(2.31) lev:(0.07)[13608]conv:(2268.89) 19.education=Childrensex=Malesalary=less_5000023972==>marital_stat=Nevermarried23967 <conf:(1)>lift:(2.31)lev:(0.07)[13608]conv:(2268.89) 20.education=Childrensex=Male23972==>marital_stat=Nevermarriedsalary=less_5000023967 <conf:(1)>lift:(2.34)lev:(0.07)[13740]conv:(2290.86) 21.marital_stat=Nevermarriedsex=Female41884==>salary=less_5000041496<conf:(0.99)>lift: (1.06)lev:(0.01)[2194]conv:(6.64) 22.marital_stat=Nevermarriedrace=Whitesex=Female32735==>salary=less_5000032405<conf: (0.99)>lift:(1.05)lev:(0.01)[1688]conv:(6.1) 23.marital_stat=Nevermarried86423==>salary=less_5000085323<conf:(0.99)>lift:(1.05)lev: (0.02)[4228]conv:(4.84) 24.education=Highschoolgraduatesex=Female26857==>salary=less_5000026514<conf:(0.99)> lift:(1.05)lev:(0.01)[1312]conv:(4.81) 25.education=Highschoolgraduaterace=Whitesex=Female23087==>salary=less_5000022781 <conf:(0.99)>lift:(1.05)lev:(0.01)[1117]conv:(4.64) 26.marital_stat=Nevermarriedrace=White68493==>salary=less_5000067536<conf:(0.99)>lift: (1.05)lev:(0.02)[3265]conv:(4.41) 27.marital_stat=Nevermarriedsex=Male44539==>salary=less_5000043827<conf:(0.98)>lift: (1.05)lev:(0.01)[2034]conv:(3.85) 28.marital_stat=Nevermarriedrace=Whitesex=Male35758==>salary=less_5000035131<conf: (0.98)>lift:(1.05)lev:(0.01)[1577]conv:(3.51) 29.sex=Female104139==>salary=less_50000101481<conf:(0.97)>lift:(1.04)lev:(0.02)[3762] conv:(2.41) 30.race=Whitesex=Female86766==>salary=less_5000084426<conf:(0.97)>lift:(1.04)lev:(0.02) [3009]conv:(2.29)

Utilizando la herramienta Tanagra, con el mismo conjunto de datos, y ejecutando un algoritmo denominado A priori PT (el cual es una evolucin del algoritmo A-Priori) y con un support mnimo de 0.1 y un confidence mnimo de 0.75:

Figura 4 Parametrizacin de Tanagra

Este algoritmo arrojo 71 reglas que cumplen con las condiciones especificadas de las cuales 25 coinciden con las reglas proporcionadas por nuestro algoritmo. A continuacin se enumeran los resultados:

Figura 5 Pantalla de Resultados de Tanagra

Las reglas obtenidas con esta herramienta ordenadas por support en forma descendiente son las siguientes:
Reglas race=White <- salary=less_50000 (0.7826100, 0.8340323, 0.8390400) salary=less_50000 <- race=White (0.7826100, 0.9327446, 0.9383450) salary=less_50000 <- sex=Female (0.5074050, 0.9744764, 0.9383450) race=White <- sex=Female (0.4338300, 0.8331749, 0.8390400) salary=less_50000 <- sex=Male (0.4309400, 0.8990935, 0.9383450) salary=less_50000 <- marital_stat=Never_married (0.4266150, 0.9872719, 0.9383450) race=White <- sex=Female /\ salary=less_50000 (0.4221300, 0.8319390, 0.8390400) salary=less_50000 <- sex=Female /\ race=White (0.4221300, 0.9730309, 0.9383450) race=White <- sex=Male (0.4052100, 0.8454116, 0.8390400) race=White <- marital_stat=Married-civilian_spouse_present (0.3766750, 0.8908005, 0.8390400) salary=less_50000 <- marital_stat=Married-civilian_spouse_present (0.3749350, 0.8866856, 0.9383450) race=White <- sex=Male /\ salary=less_50000 (0.3604800, 0.8364970, 0.8390400) salary=less_50000 <- sex=Male /\ race=White (0.3604800, 0.8896128, 0.9383450) race=White <- marital_stat=Never_married (0.3424650, 0.7925321, 0.8390400) race=White <- marital_stat=Never_married /\ salary=less_50000 (0.3376800, 0.7915333, 0.8390400) salary=less_50000 <- marital_stat=Never_married /\ race=White (0.3376800, 0.9860278, 0.9383450) salary=less_50000 <- marital_stat=Married-civilian_spouse_present /\ race=White (0.3324000, 0.8824584, 0.9383450) race=White <- marital_stat=Married-civilian_spouse_present /\ salary=less_50000 (0.3324000, 0.8865537, 0.8390400) salary=less_50000 <- education=Children (0.2363700, 1.0000000, 0.9383450) marital_stat=Never_married<- education=Children (0.2363350, 0.9998519, 0.4321150) marital_stat=Never_married<- education=Children /\ salary=less_50000 (0.2363350, 0.9998519, 0.4321150) salary=less_50000 <- education=Children /\ marital_stat=Never_married (0.2363350, 1.0000000, 0.9383450) salary=less_50000 <- education=High_school_graduate (0.2334500, 0.9603637, 0.9383450) Support 0.7826100 0.7826100 0.5074050 0.4338300 0.4309400 0.4266150 0.4221300 0.4221300 0.4052100 0.3766750 0.3749350 0.3604800 0.3604800 0.3424650 0.3376800 0.3376800 0.3324000 0.3324000 0.2363700 0.2363350 0.2363350 0.2363350 0.2334500 Confidence 0.8340323 0.9327446 0.9744764 0.8331749 0.8990935 0.9872719 0.8319390 0.9730309 0.8454116 0.8908005 0.8866856 0.8364970 0.8896128 0.7925321 0.7915333 0.9860278 0.8824584 0.8865537 1.0000000 0.9998519 0.9998519 1.0000000 0.9603637

salary=less_50000 <- marital_stat=Never_married /\ sex=Male (0.2191350, 0.9840140, 0.9383450) race=White <- education=High_school_graduate (0.2096400, 0.8624144, 0.8390400) salary=less_50000 <- marital_stat=Never_married /\ sex=Female (0.2074800, 0.9907363, 0.9383450) salary=less_50000 <- marital_stat=Married-civilian_spouse_present /\ sex=Female (0.2025600, 0.9636078, 0.9383450) race=White <- education=High_school_graduate /\ salary=less_50000 (0.2007200, 0.8597987, 0.8390400) salary=less_50000 <- education=High_school_graduate /\ race=White (0.2007200, 0.9574509, 0.9383450) race=White <- marital_stat=Married-civilian_spouse_present /\ sex=Male (0.1896200, 0.8917419, 0.8390400) race=White <- education=Children (0.1887150, 0.7983881, 0.8390400) race=White <- education=Children /\ salary=less_50000 (0.1887150, 0.7983881, 0.8390400) salary=less_50000 <- education=Children /\ race=White (0.1887150, 1.0000000, 0.9383450) race=White <- education=Children /\ marital_stat=Never_married (0.1886900, 0.7984006, 0.8390400) race=White <- education=Children /\ marital_stat=Never_married /\ salary=less_50000 (0.1886900, 0.7984006, 0.8390400) marital_stat=Never_married<- education=Children /\ race=White (0.1886900, 0.9998675, 0.4321150) marital_stat=Never_married<- education=Children /\ race=White /\ salary=less_50000 (0.1886900, 0.9998675, 0.4321150) salary=less_50000 <- education=Children /\ marital_stat=Never_married /\ race=White (0.1886900, 1.0000000, 0.9383450) race=White <- marital_stat=Married-civilian_spouse_present /\ sex=Female (0.1870550, 0.8898482, 0.8390400) race=White <- marital_stat=Married-civilian_spouse_present /\ sex=Female /\ salary=less_50000 (0.1802350, 0.8897857, 0.8390400) salary=less_50000 <- marital_stat=Married-civilian_spouse_present /\ sex=Female /\ race=White (0.1802350, 0.9635401, 0.9383450) race=White <- marital_stat=Never_married /\ sex=Male (0.1787900, 0.8028469, 0.8390400) race=White <- marital_stat=Never_married /\ sex=Male /\ salary=less_50000 (0.1756550, 0.8015835, 0.8390400) salary=less_50000 <- marital_stat=Never_married /\ sex=Male /\ race=White (0.1756550, 0.9824655, 0.9383450) salary=less_50000 <- marital_stat=Married-civilian_spouse_present /\ sex=Male (0.1723750, 0.8106424, 0.9383450) race=White <- marital_stat=Never_married /\ sex=Female (0.1636750, 0.7815634, 0.8390400) race=White <- marital_stat=Never_married /\ sex=Female /\ salary=less_50000 (0.1620250, 0.7809186, 0.8390400) salary=less_50000 <- marital_stat=Never_married /\ sex=Female /\ race=White (0.1620250, 0.9899190, 0.9383450) salary=less_50000 <- marital_stat=Married-civilian_spouse_present /\ sex=Male /\ race=White (0.1521650, 0.8024734, 0.9383450) race=White <- marital_stat=Married-civilian_spouse_present /\ sex=Male /\ salary=less_50000 (0.1521650, 0.8827556, 0.8390400) salary=less_50000 <- education=High_school_graduate /\ marital_stat=Married-civilian_spouse_present (0.1401000, 0.9493478, 0.9383450) race=White <- education=High_school_graduate /\ marital_stat=Married-civilian_spouse_present (0.1329800, 0.9011011, 0.8390400) salary=less_50000 <- education=High_school_graduate /\ sex=Female (0.1325700, 0.9872287, 0.9383450) salary=less_50000 <- education=Some_college_but_no_degree (0.1315250, 0.9363209, 0.9383450) race=White <- education=High_school_graduate /\ marital_stat=Married-civilian_spouse_present /\ salary=less_50000 (0.1260150, 0.8994647, 0.8390400) salary=less_50000 <- education=High_school_graduate /\ marital_stat=Married-civilian_spouse_present /\ race=White (0.1260150, 0.9476237, 0.9383450) race=White <- education=Some_college_but_no_degree (0.1204000, 0.8571225, 0.8390400) salary=less_50000 <- education=Children /\ sex=Male (0.1198600, 1.0000000, 0.9383450) marital_stat=Never_married<- education=Children /\ sex=Male (0.1198350, 0.9997914, 0.4321150) marital_stat=Never_married<- education=Children /\ sex=Male /\ salary=less_50000 (0.1198350, 0.9997914, 0.4321150) salary=less_50000 <- education=Children /\ marital_stat=Never_married /\ sex=Male (0.1198350, 1.0000000, 0.9383450) salary=less_50000 <- education=Children /\ sex=Female (0.1165100, 1.0000000, 0.9383450) marital_stat=Never_married<- education=Children /\ sex=Female (0.1165000, 0.9999142, 0.4321150) marital_stat=Never_married<- education=Children /\ sex=Female /\ salary=less_50000 (0.1165000, 0.9999142, 0.4321150)

0.2191350 0.2096400 0.2074800 0.2025600 0.2007200 0.2007200 0.1896200 0.1887150 0.1887150 0.1887150 0.1886900 0.1886900 0.1886900 0.1886900 0.1886900 0.1870550 0.1802350 0.1802350 0.1787900 0.1756550 0.1756550 0.1723750 0.1636750 0.1620250 0.1620250 0.1521650 0.1521650 0.1401000 0.1329800 0.1325700 0.1315250 0.1260150 0.1260150 0.1204000 0.1198600 0.1198350 0.1198350 0.1198350 0.1165100 0.1165000 0.1165000

0.9840140 0.8624144 0.9907363 0.9636078 0.8597987 0.9574509 0.8917419 0.7983881 0.7983881 1.0000000 0.7984006 0.7984006 0.9998675 0.9998675 1.0000000 0.8898482 0.8897857 0.9635401 0.8028469 0.8015835 0.9824655 0.8106424 0.7815634 0.7809186 0.9899190 0.8024734 0.8827556 0.9493478 0.9011011 0.9872287 0.9363209 0.8994647 0.9476237 0.8571225 1.0000000 0.9997914 0.9997914 1.0000000 1.0000000 0.9999142 0.9999142

salary=less_50000 <- education=Children /\ marital_stat=Never_married /\ sex=Female (0.1165000, 1.0000000, 0.9383450) race=White <- education=High_school_graduate /\ sex=Female (0.1154350, 0.8596269, 0.8390400) race=White <- education=High_school_graduate /\ sex=Female /\ salary=less_50000 (0.1139050, 0.8390400) salary=less_50000 <- education=High_school_graduate /\ sex=Female /\ race=White (0.1139050, 0.9383450) race=White <- education=Some_college_but_no_degree /\ salary=less_50000 (0.1121600, 0.8390400) salary=less_50000 <- education=Some_college_but_no_degree /\ race=White (0.1121600, 0.9383450) 0.8592065,

0.1165000 0.1154350 0.1139050

1.0000000 0.8596269 0.8592065 0.9867458 0.8527656 0.9315615 0.9272059

0.9867458, 0.1139050 0.8527656, 0.1121600 0.9315615, 0.1121600 0.1008800

salary=less_50000 <- education=High_school_graduate /\ sex=Male (0.1008800, 0.9272059, 0.9383450)

Tabla 3 - Resultados obtenidos con Tanagra

Se han remarcado con color las reglas que coincidieron con los datos obtenidos con el algoritmo propuesto. Todas las reglas que el algoritmo propuesto predijo con un support superior a 10% fueron encontradas tambin tanto por la herramienta Tanagra, Rapidminer como la herramienta Weka aplicando diferentes algoritmos. Sin embargo, Tanagra es extremadamente rpida. Para analizar los 200.000 registros con los criterios antes mencionados apenas demora 0.27s mientras que si se amplia el support a un mnimo de 0.01 (1%) demora 0.32s17. En cambio tanto Weka como RapidMiner, tienen en promedio una demora de 5s en cada ejecucin, sin variar demasiado de acuerdo a los criterios que se le especifiquen. De los datos obtenidos se desprende que tanto RapidMiner como Weka la parte del consecuente puede tener uno o mas tems. En cambio tanto el algoritmo propuesto como Tanagra, generan reglas con un slo tem en el consecuente. Si se hace un anlisis ms profundo de las reglas con dos tems en el consecuente, se puede notar que tienen el mismo Support y un Confidence casi igual a la regla equivalente, es decir siempre que exista una regla con 2 o mas elementos en el consecuente, existe una regla con el mismo Support y similar Confidence que tiene el mismo antecedente mas el elemento que se elimine del consecuente. Por ejemplo: Antecedente sex = Female salary = less_50000, sex = Female Consecuente salary = less_50000, race = White race = White Support 0.42213 0.42213 Confidence 0.81070492 0.83193898

Tabla 4 Comparacin de Support y Confidence entre reglas con uno y dos elementos en el consecuente

Por lo tanto, en el caso del programa RapidMiner de las 86 reglas obtenidas, 20 reglas son de este tipo. Es decir no agregan informacin. Por lo tanto a la hora de comparar el rendimiento del algoritmo propuesto, conviene compararlo con el resultado obtenido por Weka o Tanagra.

Bibliografa
[1] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, Third, Revised and Extended Edition, Springer, 1999. [2] Cuneo, Gioia, Di Pasquale, Algoritmos genticos para la deduccin de reglas de asociacin en una base de datos OLAP, UCA, 2011 [3] Sivanamdam, Deepa, Introduction to Genetics Algorithms, Springer, 2008. [4] Chaitin, Proving Darwin Making biology mathematical, Pantheon Books, 2012. [5] Alves de Araujo, Lopes, Freitas, A Parallel Genetic Algorithm for Rule Discovery in Large Databases - Pontifcia Universidade Catlica do Paran , 2008. [6] Malaguti, Integer linear programming for combinatorial optimization problems, Universidad de Bologna, ECI, 2012. [7] Salazar Gonzlez, Programacin Matemtica, Diaz de Santos, 2001. [8] Agrawal, Imielinski, Swami, Mining Association Rules Between Sets of Items in Large Databases", SIGMOD Conference, 1993. [9] Piatetsky, Shapiro, Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA, 1991. [10] Garca Martnez, Algoritmos genticos, ITBA-UPM, 2007.

17 Medicin tomada con una notebook con un procesador de 3Ghz y 4gb RAM

También podría gustarte