Wuolah Free ApuntesAIN v2
Wuolah Free ApuntesAIN v2
Wuolah Free ApuntesAIN v2
Anónimo
Agentes inteligentes
Una mejor definición de agente sería la siguiente: un agente es un sistema informático, situado
en algún entorno, que percibe el entorno (entradas sensibles de su entorno) y a partir de tales
percepciones determina (mediante técnicas de resolución de problemas) y ejecuta acciones (de
forma autónoma y flexible) que le permiten alcanzar sus objetivos y que pueden cambiar el
entorno.
Cualquier proceso computacional dirigido por el objetivo debe de ser capaz de interaccionar con
su entorno de forma flexible y robusta. Para ser flexible, el agente ha de ser reactivo, proactivo
y social.
Un sistema reactivo es aquel que mantiene una constante interacción con su entorno y
responde (a tiempo para que la respuesta sea útil) a los cambios que ocurren en él.
Queremos que los agentes hagan cosas por nosotros, por ello, adoptan un comportamiento
dirigido por el objetivo. La proactividad es la capacidad de generar e intentar conseguir
objetivos, no solamente dirigidos por eventos, es decir, tomar la iniciativa reconociendo
oportunidades.
• Débil:
o Autonomía.
o Proactividad.
o Reactividad.
o Sociabilidad.
• Fuerte:
o Concepto débil.
o Movilidad: habilidad de trasladarse en una red de comunicación informática.
o Veracidad: no comunica información falsa intencionadamente.
o Benevolencia: no tiene objetivos contradictorios y siempre intenta realizar la
tarea que se le solicita.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
o Racionalidad: tiene unos objetivos específicos y siempre intenta llevarlos a
cabo.
o Aprendizaje/adaptación.
Un agente tiene siempre las propiedades débiles de agencia y puede tener las propiedades
fuertes.
2.-ENTORNOS DE AGENTE
En entornos complejos, un agente no tiene control completo sobre su entorno, sólo tiene un
control parcial. El control parcial significa que el agente puede influir sobre el entorno con sus
acciones. Una acción ejecutada por un agente puede fallar o tener el efecto deseado. En
conclusión, los entornos no son deterministas y los agentes deben estar preparados para
posibles fallos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Atribuir creencias, albedrio, intenciones, conciencia, habilidades, o deseos a una máquina es
correcto cuando tal atribución expresa la misma información sobre la máquina que expresa
sobre una persona.
Cuanto más sepamos sobre un sistema, menos necesitamos confiar en explicaciones anímicas e
intencionales de su comportamiento. Pero con sistemas muy complejos, esta explicación
mecanicista no es factible. Es por eso que son necesarias abstracciones, como la actitud
intencional.
Los conceptos intencionales son herramientas de abstracción que nos proporciona una forma
cómoda y familiar de describir, explicar y predecir el comportamiento de los sistemas complejos.
Las representaciones anidadas nos brindan la posibilidad de especificar sistemas que incluyen
representaciones de otros sistemas.
Con los agentes, proporcionamos una descripción de alto nivel del objetivo delegado, y dejamos
que el mecanismo de control deduzca qué hacer, sabiendo que actuará según una teoría
integrada de agencia racional.
Los entornos pueden ser modelado mediante una función de transición de estado que
representa el comportamiento del entorno:
𝜏: ℛ 𝒜 → 𝒫(𝐸)
donde 𝒫(𝐸) es el conjunto de partes de E.
Esta función tiene como argumento una secuencia estado-acción (r) que finaliza en una acción,
y devuelve como resultado un conjunto de estado del entorno, es decir, representa el efecto
que las acciones de un agente tienen sobre el entorno. Su significado es que como resultado de
ejecutar la última acción de la secuencia el entorno puede encontrarse en cualquiera de los
estados 𝜏(𝑟).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Debemos observar que los entorno son dependientes de la historia y no son deterministas. Si
𝜏(𝑟)=0 no hay posible estado sucesor de r, es decir, la ejecución ha finalizado. Asumimos que
eventualmente todas las ejecuciones finalizan. Un entorno Env es una tripleta <E, s0, 𝜏> donde
E es el conjunto de estados del entorno, s0 es el estado inicial y 𝜏 es función de transición.
𝐴𝑔: ℛ 𝐸 → 𝐴𝑐
Asumimos que los entornos son implícitamente estocásticos, sin embargo, los agentes son
deterministas.
Un sistema es un par que contiene un agente y un entorno. Cualquier sistema tendrá asociado
un conjunto de posibles ejecuciones. Denotaremos el conjunto de posibles ejecuciones de un
agente Ag en un entorno Env por ℛ(Ag, Env), que contiene solo ejecuciones que han finalizado.
Dos agentes Ag1 y Ag2 tienen un comportamiento equivalente en un entorno Env si y solo si
ℛ(Ag1, Env) = ℛ(Ag2, Env), es decir, si tienen un comportamiento equivalente en todos los
entornos.
Un agente reactivo decide que acción ejecutar sin tener en cuenta su historia considerando
solamente el presente. Formalmente el comportamiento de un agente reactivo se representa
mediante una función:
Acción: E -> A
Para cualquier agente reactivo hay un modelo de agente como el definido previamente, lo
inverso no es generalmente cierto.
La función percibir modela la capacidad del agente para percibir su entorno, mientras que la
función actuar modela el proceso de toma de decisión del agente.
Percibir: E -> P
donde P es un conjunto (no vacío) de percepciones, que relacionan estados del entorno con
percepciones y E es el conjunto de los estados percibidos diferentes. Un agente sería
omnisciente si |E| = |S|.
Acción: P* -> A
Dos estados diferentes s1ϵS y s2ϵS (s1≠s2) son indistinguibles si percibir(s1) = percibir(s2).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Los agentes con estado tienen una estructura de datos interna que es utilizada para recordar
información sobre la historia y estado del entorno. Tienen la misma función de percepción. La
función acción-selección es definida ahora como un mapping entre estados internos y acciones:
Acción: I -> Ac
Se introduce una nueva función de siguiente estado que define un estado interno a partir de un
estado interno y las percepciones:
Actualizar_estados: I x P -> I
Esta función determina el nuevo estado interno a partir del estado interno en que se encuentre
el agente y las percepciones que perciba en su entorno.
Actualizar_objetivos: G x P -> G
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Y se redefine la función acción:
Acción: I x G -> Ac
La acción seleccionada por el agente dependerá del estado interno y de los objetivos que el
agente quiera alcanzar.
Un agente racional emprende aquella acción que maximice el valor esperado de la medida de
rendimiento, basándose en las evidencias aportadas por la secuencia de percepciones. Para
diseñar un agente racional, debemos especificar el entorno de trabajo.
Una utilidad es un valor numérico que representa cuan bueno es un estado, cuando mayor es la
utilidad, mejor es el estado. La tarea del agente es alcanzar estados que maximicen la utilidad.
Una especificación de tarea es una función:
𝑢: 𝐸 → ℝ
que asocia un número real a cada estado del entorno.
Al asignar utilidades a estados locales, es difícil precisar una visión a largo plazo. Una solución es
no asignar una utilidad a estados individuales sino a las ejecuciones del agente:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
𝑢: 𝑅 → ℝ
Esta aproximación tiene inherentemente una visión a largo plazo. Otras variaciones implican
incorporar las probabilidades de los diferentes estados emergentes.
∑ 𝑃(𝑟|𝐴𝑔, 𝐸𝑛𝑣) = 1
𝑟∈𝑅(𝐴𝑔,𝐸𝑛𝑣)
El agente óptimo Agopt en un entorno Env es aquel que maximiza la utilidad esperada:
Denotamos por AGm el conjunto de los agentes que pueden ser implementados en una máquina
m:
𝜓: ℛ → {0, 1}
Un entorno de tarea es un par <Env, ψ>. Denotaremos por𝑅𝜓 (𝐴𝑔, 𝐸𝑛𝑣) el conjunto de todas
las ejecuciones de un agente Ag en un entorno Env que satisface 𝜓:
Entonces decimos que una agente Ag tiene éxito en un entorno de tarea si:
Sea P(r|Ag, Env) la probabilidad de que la ejecución r ocurra si el agente Ag está situado en el
entorno Env. Entonces la probabilidad 𝑃(𝜓|𝐴𝑔, 𝐸𝑛𝑣) de que 𝜓 sea satisfecho por el agente Ag
en el entorno Env será:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Los dos tipos de tareas más comunes son:
• Sólido si cada vez que genera un agente este tiene éxito en el entorno de tarea que se
le ha pasado como entrada:
• Completo si está garantizado que genera un agente, siempre que exista un agente que
tendrá éxito en el entorno de tarea que se le ha pasado como entrada.
∃𝐴𝑔 ∈ 𝐴𝐺/ ℛ(𝐴𝑔, 𝐸𝑛𝑣) = 𝑅𝜓 (𝐴𝑔, 𝐸𝑛𝑣) ⇒ 𝑠𝑦𝑛(< 𝐸𝑛𝑣, 𝜓 >) ≠ 𝑛𝑢𝑙𝑙
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
TEMA 3.- RAZONAMIENTO PRÁCTICO
1.-ARQUITECTURA DE AGENTE
Un agente es un sistema informático capaz de acción autónoma flexible. Existen tres tipos de
arquitectura de agente:
• Simbólico/lógico.
• Reactivo.
• Híbrido.
La toma de decisiones usando lógica de primer orden es indecible, incluso usando lógica
proposicional. Las soluciones típicas son:
• Simplificar la lógica.
• Usar representaciones simbólicas, no lógicas.
• Pasar el énfasis del razonamiento de la ejecución al diseño.
Otros problemas son que la aproximación lógica presentada implica añadir y borrar cosas de una
BD (no monotonía). Eso no es lógica de primer orden (lógica modal). Los primeros intentos de
crear un agente planificador utilizaron deducción lógica de primer orden para resolver el
problema.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
intencionales (creencia, compromiso e intención). La motivación es usar actitudes intencionales
como mecanismo de abstracción para representar propiedades de sistemas complejos.
3.-AGENTES REACTIVOS
El comportamiento inteligente es producto de interacción con el entorno y emerge de
comportamientos simples.
• Inteligencia sin representación: comportamiento inteligente que puede ser logrado sin
representaciones explícitas del tipo que la IA simbólica propone.
• Inteligencia sin razonamiento: comportamiento inteligente que puede ser logrado sin
razonamiento abstracto explícito del tipo que la IA simbólica propone.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
𝐵𝑒ℎ = {(𝑐, 𝑎)|𝑐 ⊆ 𝑃 𝑦 𝑎 ∈ 𝐴}
Un comportamiento (c,a) puede dispararse cuando el entorno esté en el estado 𝑠 ∈ 𝑆 si 𝑐 ⊆
𝑝𝑒𝑟𝑐𝑖𝑏𝑖𝑟(𝑠). En un estado del entorno puede dispararse más de un comportamiento de Beh:
4.-AGENTES HÍBRIDOS
Un agente híbrido es un agente construido a partir de dos o más subsistemas:
• Uno deliberativo, conteniendo un modelo del mundo simbólico, que desarrolla planes
y toma decisiones de la manera propuesta por la IA simbólica.
• Uno reactivo, que es capaz de reaccionar a eventos sin razonamiento complejo.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Sus ventajas son la simplicidad conceptual, si necesitamos que un agente presente n
tipos diferentes de comportamientos, implementamos n capas diferentes. Sus
desventajas son la competición entre capas. Para ello se utiliza la función mediador que
toma la decisión sobre quién tiene control.
• Capas verticales: la entrada sensorial y la salida de acciones son tratadas por una capa
como mucho. Está basada en tres capas:
o Capa basad en el comportamiento: comportamiento reactivo.
o Capa de planificación local: para planificación diaria.
o Planificación co-operativa: para interacciones sociales.
El flujo de control de agentes empieza con una entrada perceptual que llega a la capa
más baja. Si la capa reactiva puede tratar con esta entrada, lo hace, sino se hace una
activación de abajo a arriba. Si la capa de planificación local puede manejar la situación,
lo hace, sino se hace una activación de abajo a arriba.
Sus ventajas son que la complejidad de interacciones entre capas es reducida. Sus
desventajas son su flexibilidad, es decir, es no tolerante a fallos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
La arquitectura BDI para agentes con recursos incluye:
• Análisis de objetivos.
• Sopesar distintas alternativas.
• Interacción entre estas dos formas de razonamiento.
Los agentes necesitan determinar formas de lograr las intenciones. A su vez, éstas son como un
filtro para adoptar otras intenciones que no entren en conflicto. Los agentes siguen el éxito de
sus intenciones, y están inclinados a volver a intentarlas si fallan. También creen que sus
intenciones son posibles y que las conseguirán bajo ciertas circunstancias, pero no creen que no
lograrán sus intenciones. Los agentes no tienen que planificar todos los efectos colaterales de
sus intenciones. Este problema se conoce como efecto colateral o problema del todo en el
mismo paquete. Las intenciones son mucho más fuertes que los meros deseos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
5.1.-ARQUITECTURAS BDI
1. Observar el mundo.
2. Actualizar el modelo interno del mundo.
3. Deliberar sobre qué intenciones lograr.
4. Crear un plan y ejecutarlo.
El problema de los procesos de deliberación y razonamiento guiado por objetivos es que no son
instantáneos, ya que tienen un coste temporal. Si el agente comienza a deliberar en t0,
comienza el razonamiento guiado por objetivos en t1, y comienza a ejecutar el plan en t2. El
tiempo para deliberar es t1–t0. El tiempo para el razonamiento guiado por los objetivos es
t2–t1.
La deliberación es óptima si cuando selecciona alguna intención a lograr, ésta es la mejor opción
para el agente. Así en el instante t1, el agente ha elegido una intención a lograr que hubiera sido
óptima si se hubiese logrado en t0. Pero, a menos que el tiempo de deliberación sea muy
pequeño, el agente corre el riesgo de que la intención seleccionada no sea ya óptima en el
momento en el que el agente se fija en ella. Esto es racionalidad calculada. La deliberación es
sólo la mitad del problema, el agente todavía tiene que determinar cómo lograr la intención.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Un agente para deliberar comienza intentando entender qué opciones tiene disponibles,
después eligen entre ellas, y se compromete con alguna. Las opciones elegidas son entonces,
intenciones.
Un agente se compromete tanto a los fines como a los medios, por ende, se debería replanificar
siempre que un plan vaya mal (compromiso ciego).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Esta implementación nunca para a considerar si sus intenciones son apropiadas o no, por lo
que deberíamos determinar si las intenciones han tenido éxito o si son imposibles (compromiso
inquebrantable).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Nuestro agente ahora reconsidera sus intenciones cada vez que está en el bucle exterior,
cuando:
Esto permite a un agente reconsiderar sus intenciones, pero debería reconsiderar intenciones
después de ejecutar cada acción (compromiso de mente abierta).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Las interacciones posibles entre control meta-nivel y deliberación son:
El coste de reconsiderar es mucho menor que el coste del proceso de deliberación mismo.
Existen dos tipos diferentes de estrategias de reconsideración:
5.2.-JASON
El lenguaje que interpreta es una extensión de AgentSpeak. Los elementos fundamentales del
lenguaje son:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
• Creencias (beliefs).
• Objetivos (goals).
• Planes (plans, intentions).
Cada agente tiene una base de creencias, que son a su vez, una colección de literales
representados como predicados. Las anotaciones son detalles asociados a una creencia que
aportan elegancia al lenguaje y facilitan el manejo de la base de creencias.
StrongNegation: se denota con “~”. Expresa que el agente cree explícitamente que algo es falso.
• Achievement goals(operador !): expresan un estado del mundo que el agente desea
conseguir.
• Test goals(operador ?): usados normalmente para recuperar información de la base de
creencias.
Cuando un plan falla se genera un evento -!g(goal deletion event) si se generó por la adición de
un achievement goal o test goal. El plan que se dispare por el fallo se añade a la pila de
intenciones del plan que ha fallado.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Para cada creencia se anota su origen (id, self, perception). Cada agente posee una mailbox M y
una función de selección de mensajes de M.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
TEMA 4.- CAPACIDAD SOCIAL
1.-COMUNICACIÓN
La comunicación es el acto o proceso por el que una o varias personas (emisores) transmiten un
mensaje con información a otra u otras (receptoras).
El canal es el medio físico o el soporte tecnológico que hace que el mensaje llegue del emisor al
receptor.
Si dos agentes tienen que comunicarse en un dominio o contexto determinado es necesario que
compartan la terminología que utilizan para describir el dominio. Una ontología es una
especificación de un conjunto de términos que tiene por objeto proporcionar una base común
de comprensión sobre algún dominio.
1. Un lenguaje común.
2. Una comprensión común del conocimiento intercambiado.
3. Una habilidad para intercambiar todo lo relativo a (1) y (2).
2.-LENGUAJE DE COMUNICACIÓN
La comunicación es la base para las interacciones y la organización social de los agentes. Hay
interacciones cuando la dinámica de un agente está perturbada por las influencias de otros.
Éstas son el motor de los sistemas multi-agente. Existen distintas formas de interaccionar:
Las capacidades de comunicación son lo bloques básicos con los que construir mecanismos de
coordinación, cooperación y negociación entre agentes.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
En el sistema de pizarra, la pizarra es una zona de trabajo común que permite a los agentes
compartir todo tipo de información. Un sistema multiagente puede tener varias pizarras con
distintos agentes registrados en cada una. No hay comunicación directa entre agentes. Los
sistemas más avanzados incorporan nuevos conceptos:
Los sistemas de pizarra constituyen un método muy flexible de comunicación para la resolución
distribuida de problemas. Son independientes de la estrategia de cooperación que se vaya a
utilizar y no afectan a la arquitectura de los agentes individuales. Sin embargo, la estructura
central de la pizarra representa cada vez más un inconveniente ya que todos los agentes
distribuidos por una red se ven obligados a acceder al dispositivo central donde se encuentra la
pizarra.
La función denotativa del lenguaje es determinar la verdad o falsedad de una frase. Los actos
del habla hacen referencia a la función conativa, ya que designan las acciones intencionales en
el curso de una conversación.
Quien habla no declara solamente sentencias ciertas o falses, sino que realiza actos de habla:
peticiones, sugerencias, promesas, amenazas, etc. Cada declaración es un acto de habla.
Identificar estos actos es imprescindible para una correcta comunicación. Los tipos de actos de
habla son:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Todo acto del habla consiste en una fuerza F aplicada a una proposición P.
Una declaración no es verdadera o falsa, sino tiene éxito o fracasa. Un acto de habla puede fallar:
• El protocolo de interacción. Estrategia de alto nivel seguida por el agente software para
controlar la interacción con otros agentes. Desde esquemas de negociación hasta
esquemas más simples.
• El lenguaje de comunicación. Es el medio a través del que se intercambian los actos de
la comunicación. Indica si el contenido de la comunicación es una información, una
respuesta o algún tipo de consulta.
• El protocolo de transporte. Mecanismo de transporte utilizado en la comunicación.
KQML asume un modelo de agentes, entidades de alto nivel con capacidades cognitivas, que
tienen una descripción de nivel intencional. Los agentes residen en el nivel de conocimiento.
Los mensajes KQML comunican una actitud sobre el contenido que llevan. Las primitivas del
lenguaje se llaman performativas y cada mensaje KQML representa un acto de habla. El lenguaje
KQML está divido en tres capas:
Los mensajes KQML representan un acto de habla o performativa y constan de una lista de pares
atributo-valor (el primer elemento es el identificador del acto del habla, el resto son pares
atribut-valor).
Palabras reservadas:
content
sender
receiver
language
ontology
reply-with
in-reply-to
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Performativas:
Protocolos:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Los mensajes recibidos por un agente JASON tienen la siguiente estructura:
.broadcast(fuerza_ilocutoria, contenido_proposicional)
• tell: s pretende que r crea (lo que s cree) que el literal del contenido es verdadero.
• untell: s pretende que r no crea (lo que s cree) que el literal del contenido es
verdadero.
• achieve: s pide a r que invente alcanzar un estado en el que el literal del contenido del
mensaje sea verdadero (s delega un objetivo en r).
• unachieve: s pide a r que abandone el objetivo de alcanzar un estado donde el
contenido del mensaje sea cierto.
• askone: s quiere saber si el contenido del mensaje es verdadero para r.
• askAll: s quiere todas las respuestas de r a una pregunta.
• tellHow: s informa a r de un plan (que s conoce).
• untellHow: s pide a r que ignore un determinado plan.
• askHow: s desea obtener todos los planes de r que son relevantes para el evento de
disparo especificado en el contenido del mensaje.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
TEMA 5.- SISTEMAS MULTIAGENTE
1.-INTRODUCCIÓN
Un sistema multiagente está constituido por un conjunto de agentes (dos o más) que
interactúan los unos con los otros. En el caso más general, los agentes actúan en representación
de usuarios que tienen diferente objetivos y motivaciones. Para interactuar con éxito, requieren
capacidades para cooperar, coordinarse y negociar con cada uno de los otros.
La tecnología de SMA nos permite modelar sistemas reales complejos y con características
claramente distribuidas. Se puede ver como una organización computacional consistente de
varios “roles” interactuando.
Se debe identificar los diferentes subsistemas que forman parte del sistema global, y las posibles
interacciones y dependencias entre ellos. Hay que tener en cuenta el punto de vista interno (un
agente) y el punto de vista externo (varios agentes).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
2.-MODELO CONCEPTUAL DE PLATAFORMA FIPA
FIPA (Foundation for Intelligent Physical Agents) es una organización de estándares para agentes
y sistemas multiagente.
El directory facilitator es el servicio de páginas amarillas. Los agentes se registran indicando los
servicios que ofrecen.
El agent communication channel ofrece envío de mensajes entre agentes de la misma o distinta
plataforma de forma asíncrona.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
3.-PLATAFORMA DE AGENTE
Las plataformas de agentes sirven para ejecutar sistemas multiagente.
Un agente Magentix2 tiene tres métodos principales: init, execute y finalize. Éstos se
ejecutan en el siguiente orden:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
TEMA 6.- NEGOCIACIÓN
1.-INTRODUCCIÓN
La negociación es un proceso por el cual una decisión conjunta es tomada por dos o más partes.
Las partes primero verbalizan demandas contradictorias y se mueven hacia un acuerdo
mediante un proceso de concesión, haciendo o buscando nuevas alternativas.
La negociación también puede definirse como una forma de interacción en la que un grupo de
agentes o personas con intereses en conflicto y un deseo de cooperar, intentan alcanzar un
acuerdo mutuamente satisfactorio en la división de una serie de recursos limitados.
Características de la negociación:
• Conocimiento perfecto.
• Recursos computacionales ilimitados.
• Proceso no acotado en el tiempo.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
• En base a los tipos de solución:
o Distributiva: hacer ganar valor a una de las partes supone pérdidas en otra de
las partes.
o Integrativa: existe potencial para encontrar una situación donde todas las
partes salen ganando.
o Mixta: valores tanto distributivos como integrativos.
• Cardinalidad de los atributos:
o Binarios.
o Discretos (ordenables, no ordenables).
o Continuos.
Las tareas básicas que debe llevar a cabo un agente negociador son:
• Preliminares:
o Conflicto social: identificar una situación de conflicto y su naturaleza.
o Participantes en la negociación:
▪ Identificar posibles oponentes.
▪ Identificar potenciales compañeros.
▪ Identificar competidores.
• Modelo de pre-negociación:
o Estructurar la información personal:
▪ Definir atributos a negociar.
▪ Caracterizar las preferencias sobre los atributos.
▪ Definir límites y objetivos.
o Análisis de los oponentes:
▪ Obtener o inferir información sobre los límites y objetivos de los
oponentes.
▪ Historial de negociación de los oponentes.
▪ Estrategias usadas por los oponentes.
o Definir el protocolo y seleccionar la estrategia inicial. El protocolo es el conjunto
de reglas de interacción que deben seguir los participantes. En la estrategia
defines qué decisiones se van a tomar, y cómo y cuando van a ser estas tomadas.
• Modelo de negociación:
o Intercambio de ofertas y intercambio de feedback sobre las mismas.
o Argumentación / Intercambio de información.
o Aprendizaje.
o Adaptación de la negociación.
• Renegociación e implementación del acuerdo:
o Formalización del acuerdo en un contrato.
o Renegociar los flecos no solucionados o adaptar clausuras a nuevas condiciones.
o Monitorización e implementación del acuerdo.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Las tareas básicas que deben llevar a cabo los equipos de negociación:
Los métodos estudiados en social choice surgen de forma natural en la sociedad. Además, ha
sido estudiado por las matemáticas y la teoría de juegos principalmente.
Nociones básicas:
• Un conjunto de agentes N = {1,2,…,n} o votantes, estas son las entidades que expresarán
sus preferencias.
• Un conjunto de posibilidades o candidatos O = {o1,o2,…,oo}, si |O| = 2, tenemos una
elección de parejas.
• Relaciones de preferencia ≥i:
o Preferencia estricta o1 >i o2.
o Preferencia débil o1 ≥i o2.
o Indiferencia o1 ~ i o2.
• La relación de preferencia induce un orden de preferencias sobre O para cada uno de
los agentes.
• FN es la función de social choice o criterio del ganador.
Cada votante tiene sus preferencias sobre las distintas opciones (O), por lo que proporciona una
ordenación sobre el conjunto de posibles opciones.
El problema fundamental de la teoría de social choice es que, dada una colección de órdenes
de preferencia, una para cada votante, ¿cómo se puede combinarlas para obtener una decisión
de grupo, que refleje lo más fielmente posible las preferencias de los votantes?
n veces
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
• Funciones de elección social. Algunas veces solo necesitamos seleccionar una de las
posibles opciones en vez de establecer un orden social. Una función de selección social
determina, a partir de las preferencias de los votantes, una de las opciones:
𝐹𝑁 : ∏(𝑂) ∗ … ∗ ∏(𝑂) → 𝑂
n veces
• Una opción o es ganadora Condorcet si para cualquier otra opción o’, el número de
agentes que o > o’ es mayor o igual que el número de agentes que o’ > o.
• Una opción o es perdedora Condorcet si para cualquier otra opción o’, el número de
agentes que o’ > o es mayor o igual que el número de agentes que o > o’.
• FN(.) es Condorcet ganador si escoge como ganador al ganador Condorcet.
• FN(.) cumple el criterio Condorcet perdedor si excluye al Condorcet perdedor como
ganador.
Las condiciones de Condorcet presentan un problema, la paradoja Condorcet, que viene a decir
que existen situaciones en las que, sin importar el resultado que elijamos, una mayoría de los
votantes no estarán contentos con el resultado elegido.
• La propiedad de Pareto.
• Independencia de alternativas irrelevantes.
El criterio de Pareto se basa en que si para todo votante i, o >i o’, entonces FN(O) ≠ o’. En otras
palabras, si todos prefieren a o más que a o’, entonces o debe ser clasificado antes que o’ en el
resultado social.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
o Regla de Copeland: busca la alternativa o cuyo índice Copeland IC(o) es mayor.
𝑎𝑟𝑔𝑚𝑎𝑥 𝐼𝐶(𝑜) = argmax ∑ 𝑝(𝑜, 𝑜′)
𝑜∈𝑂
𝑜′ ≠𝑜
𝑜′∈𝑂
1 ⋕ (𝑜 > 𝑜 ′ ) > (𝑜 ′ > 0)
𝑝(𝑜, 𝑜 ′ ) = {
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Los grafos de mayorías nos permiten ilustrar fácilmente como establecer una agenda para que
gane un candidato. Se trata de un grafo dirigido con candidatos como vértices y un arco (i,j) si i
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
ganaría a j en una elección por mayoría simple. En un grafo, el ganador Condorcet sería el
candidato que ganaría a todos los candidatos en una elección por parejas.
• Criterio Pareto (P(W)): si todos los agentes están de acuerdo en el orden entre
candidatos, W debe seleccionar ese orden.
• Independencia de alternativas irrelevantes (IIA(W)): el orden entre dos candidatos
debería depender solo del orden relativo de los candidatos dado por los agentes.
• No dictatorial (¬D(W)): no existe un solo agente cuyas preferencias siempre determinen
el orden social.
No podemos encontrar un orden social que cumpla las tres propiedades a la vez. En muchas
ocasiones no existe forma justa y lógica de agregar las preferencias individuales, es decir, no
existe forma exacta de determinar la voluntad colectiva.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
3.-SUBASTAS
La asignación de recursos escasos entre un número de agentes es un tema central en sistemas
multiagente. Los recursos pueden ser:
• Un objeto físico.
• Un derecho.
• Recursos computacionales.
Si el recurso no es escaso, no hay problemas para su asignación. Si no hay competencia por los
recursos, entonces no hay problemas para su asignación.
Las subastas están relacionadas con los comerciantes y sus asignaciones de las unidades de un
bien indivisible, y el dinero, que es divisible. En éstas se asume alguna asignación inicial. El
intercambio es la libre modificación de la asignación de los bienes y dinero entre los
comerciantes. En general tienden a presentar las siguientes características:
Las ventajas de las subastas es que son un fenómeno usado socialmente, es decir, es conocido
por usuarios y desarrolladores, y el protocolo de interacción es bien definido y cerrado.
Las desventajas son que no permite intercambiar información y que se suelte tratar solo
negociaciones monoatributo.
Las subastas son estudiadas por el diseño de mecanismos, se buscan propiedades matemáticas
interesantes como:
• Un vendedor y n compradores.
• Negociación por un único bien o producto.
• Cada comprador valora en mayor o menor grado el producto.
• Los compradores prefieren pagar cuanto menos mejor.
• Los vendedores prefieren cobrar cuanto más mejor.
• Subasta inglesa. El vendedor ajusta un precio inicial para el producto, el mínimo para el
vendedor. Los compradores pujan un valor mayor que el anterior y la puja suele ser
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
pública. La condición de terminación es un tiempo fijo o tras no recibir nuevas pujan
durante un tiempo. El ganador paga el dinero que pujó.
• Subasta inglesa: pujar la unidad incremental mínima hasta que el resto de los agentes
alcancen su máximo.
• Subasta japonesa: continuar en el proceso siempre que nuestro límite máximo lo
permita. Decir la verdad es una estrategia dominante cuando nuestro máximo no
depende de lo que hagan otros.
• Subasta holandesa: no tiene.
• Subasta de sobre cerrado de primer precio: no tiene.
• Subasta de sobre cerrado de segundo precio: decir la verdad y pujar por nuestro precio
límite.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
La subasta que debemos escoger si somos el subastador es:
• Desde el punto de vista del beneficio teórico esperado: si los agentes son neutrales al
riesgo y la función de valuación es independiente, da igual.
• Computacionalmente: los protocolos con estrategias dominantes son más baratos, pero
hay que tener en cuenta el coste de las comunicaciones.
• Desde el punto de vista del beneficio real: la valuación de un objeto depende de lo que
observamos, por lo que la subasta inglesa es mejor que la de sobre cerrado de segundo
precio. Éstas últimas son mejores que la holandesa y la de sobre cerrado de primer
precio.
Existen dos problemas conocidos son las subastas por un único bien:
• Collusion: los compradores pueden aliarse para pagar menos por un producto. Esto es
dominante en la subasta inglesa y la de sobre cerrado de segundo precio.
• Lying auctioneer: el propio subastador puja por el producto para subir su valor real.
3.3.-SUBASTAS COMBINATORIAS
Son subastas por múltiples bienes distintos o por múltiples unidades de múltiples bienes
distintos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Una modelización de este problema sería:
𝑈𝑖 (. ) = 2𝐺 ↦ ℜ
que significa que para cada posible conjunto de bienes 𝑔 ⊆ 𝐺, 𝑈𝑖 (𝑔) dice lo bueno que
es g para i. Si 𝑈𝑖 (∅) = 0, entonces se dice que la función de valuación de i se normaliza.
• Las pujas son por un conjunto de bienes variables y un precio. Un agente puede hacer
muchas pujas distintas.
• Las pujas expresan en cierta manera preferencias por ciertos conjuntos de objetos:
o Sustitubilidad: 𝑈𝑖 (𝐺1 ∪ 𝐺2 ) < 𝑈𝑖 (𝐺1 ) + 𝑈𝑖 (𝐺2 )
o Complementariedad: 𝑈𝑖 (𝐺1 ∪ 𝐺2 ) > 𝑈𝑖 (𝐺1 ) + 𝑈𝑖 (𝐺2 )
Formalmente una asignación es una lista de conjuntos de g1,…,gn, uno para cada agentes Agi con
la condición de que:
𝑔𝑖 ⊆ 𝐺
∀𝑖, 𝑗 ∈ 𝐴𝑔, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑖 ≠ 𝑗, 𝑠𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑞𝑢𝑒 𝑔𝑖 ∩ 𝑔𝑗 = ∅
No se asigna un mismo bien (producto) a más de un agente. El conjunto de todas las asignaciones
G a los agentes Ag es:
𝑎𝑙𝑙𝑜𝑐(𝐺, 𝐴𝑔)
Una forma natural de determinar la asignación es maximizar el bienestar social, es decir, la
suma de las utilidades de todos los agentes. Definimos una función de bienestar social de la
siguiente forma:
𝑛
𝐹𝑁 (𝑔1 , … , 𝑔𝑛 , 𝑢1 , … , 𝑢𝑛 ) = ∑ 𝑢𝑖 (𝑔𝑖 )
𝑖=1
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
especial del problema de empacamiento de conjuntos, que es NP completo. Se podría
conseguir que cada agente i declarase su valuación ui, pero esta valuación es lo que dice el
agente, no necesariamente lo que es, y el agente puede mentir. En conclusión, basta con ver
todas las posibles asignaciones y decidir cuál es la mejor.
Ver todas las posibles asignaciones supone un problema, la representación, ya que las
valoraciones son exponenciales:
𝑈𝑖 (. ) = 2𝐺 ↦ ℜ
Una representación simple es poco práctico, pero buscar todas las posibles valoraciones es
computacionalmente intratable.
El lenguaje de pujas permite a los licitadores la construcción de las valoraciones de las ofertas
que quieren mencionar. Se define de la siguiente manera:
Para construir valoraciones más complejas, las ofertas atómicas pueden ser combinadas en
ofertas más complejas, como las ofertas XOR:
El problema básico es intratable, pero esto sucede en el peor caso, por lo tanto, es posible
desarrollar aproximaciones óptimas que funcionan bien en muchos casos. También puede
resultar adecuado renunciar al óptimo y utilizar:
• Heurísticas.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
• Buscar algoritmos de aproximación. Una aproximación muy común es codificar el
problema como un programa literal entero y utilizar un solucionador estándar, esto
funciona frecuentemente en la práctica.
En general no sabemos si las valoraciones que nos proporcionan los agentes son veraces o falsas,
pero podemos hacer estas valoraciones veraces en una subasta Vickrey a través del mecanismo
Vickrey/Clarke/Groves o VCG. Este mecanismo es compatible con los incentivos, en los que decir
la verdad es una estrategia dominante. La notación sería la siguiente:
y es elegida la asignación:
en otras palabras, cada agente paga su coste, a los otros agentes, después de haber
participado en la subasta.
Si yo hago una oferta mayor que mi valoración y gano, entonces yo acabo pagando lo que vale
el bien para todos los demás, que es más de lo que vale para mí. Si oculto mi subasta, reduzco
mi probabilidad de ganar, pero incluso si gano aún estoy pagando lo que todo el mundo piensa
que vale el bien, por lo que no ahorro dinero reduciendo mis probabilidades de ganar. Por lo
tanto, tenemos una estrategia dominante para cada agente que garantiza maximizar el
bienestar social.
3.4.-INTERCAMBIOS
Los intercambios son subastas donde todos pueden actuar como compradores y vendedores.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Existen principalmente dos tipos:
En las subastas a dos bandas, hay muchos compradores y muchos vendedores de un bien. Cada
comprador y cada vendedor hace una puja de compra/venta respectivamente con precio y
número de unidades. Las pujas son almacenadas en un servidor central, definiendo dos tipos:
Las ofertas de compra y venta son agrupadas de forma que se compra/venden las unidades
deseadas. Si no es posible, el remanente se introduce como nueva oferta para próximas
distribuciones. El agrupamiento de compra es posible si el precio de venta es menor o igual que
el de compra.
• Las subastas solo se ocupan de la asignación de bienes. Se requieren técnicas más ricas
de alcanzar acuerdos.
• La negociación es el proceso de alcanzar acuerdos sobre asuntos de interés común.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Cualquier entorno de negociación tendrá cuatro componentes:
• Un conjunto de negociación: las posibles propuestas que los agentes pueden hacer.
• Un protocolo.
• Estrategias, una por cada agente, que son privadas.
• Una regla que determina cuando se ha alcanzado un acuerdo y cuál es el trato del
acuerdo.
Frecuentemente la negociación ocurre en una serie de rondas con propuestas en cada ronda.
Hay que encontrar múltiples soluciones a la complejidad inherente de la negociación como:
Al final concluimos que no hay mucho que diferencia las subastas de la negociación.
4.1.-NEGOCIACIÓN BILATERAL
La negociación bilateral y multilateral posee múltiples atributos y valores, por lo que los
espacios de búsqueda son muy grandes. En éstos, es complicado alcanzar un acuerdo óptimo en
dichos espacios. A su vez, no nos valen protocolos one-shot para alcanzar un acuerdo válido, ya
que requerimos intercambiar más información u ofertas.
La función de utilidad es una función matemática abstracta que encapsula las preferencias o
gustos del agente. Esta información es personal y privada para cada uno de los agentes. A su
vez, determina cuánto le gusta al agente una determinada oferta. El objetivo es que el acuerdo
final maximice esta función. La función de utilidad puede depender de factores distintos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Las funciones de utilidad lineales son el modelo de preferencia multiatributo más común:
𝑈𝑎𝑖 (𝑋) = 𝑤𝑖,1 𝑉𝑖,1 (𝑥1 ) + 𝑤𝑖,2 𝑉𝑖,2 (𝑥2 ) + ⋯ + 𝑤𝑖,𝑁 𝑉𝑖,𝑁 (𝑥𝑁 )
∑ 𝑤𝑖,𝑗 = 1
𝑗
Las reglas del protocolo no significan que siempre se alcanzará un acuerdo. En este caso,
hablamos de conflicto deal o oferta conflicto. Se adoptan las siguientes suposiciones básicas:
Un jugador racional siempre elige la estrategia que maximiza su utilidad esperada. Podemos
asumir que todos los jugadores son racionales y el juego y la racionalidad de los jugadores es un
conocimiento compartido por todos. De esta asunción surgen dos tipos de soluciones:
Todo juego en que cada jugador tiene un conjunto finito de estrategias tiene al menos un
equilibrio de Nash de estrategias mixtas.
𝑊(𝑜) = ∑ 𝑈𝑖 (𝑜)
𝑖∈𝑁
𝑊(𝑜) = ∏ 𝑈𝑖 (𝑜)
𝑖∈𝑁
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
El resultado que maximiza el bienestar es:
𝑜 ∗= argmax 𝑊(𝑜)
𝑜∈𝑂
Un juego de una ronda sigue siendo un ultimátum game. Un juego de 2 rondas significa que el
agente 2 puede jugar como antes, pero si lo hace así, solo obtendrá 𝛿2 . En el caso general, el
agente 1 hace la propuesta que ofrece al agente 2 y que el agente 2 sería capaz de imponer en
la segunda ronda:
• El agente 1 obtiene:
1 − 𝛿2
1 − 𝛿1 𝛿2
• El agente 2 obtiene:
𝛿2 (1 − 𝛿1 )
1 − 𝛿1 𝛿2
La aproximación heurística es un enfoque más sencillo ya que aproxima el valor que varía para
los jugadores. Algunas aproximaciones comunes son:
• Lineal: incremento lineal desde el precio inicial en el instante de inicio hasta el precio
de reserva en el plazo máximo.
• Boulware: aumento muy lento hasta la proximidad del plazo máximo y luego un
aumento exponencial.
• Concesión: incremento exponencial inicial hasta la proximidad del precio de reserva y
luego no cambia mucho.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
vemos que el acuerdo no es posible. Cómo, cuánto y cuándo concedemos es lo que marca la
estrategia de concesión, es decir, nuestro nivel de aspiración actual.
Para todo esto podemos utilizar una función heurística de similaridad, es decir, escoger la oferta
con el nivel de aspiración actual que más se parece a la anterior. Puede ser utilizando dos bases
distintas de similaridad:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
También podemos hacer uso de algoritmos genéricos, que realizan operaciones de cruce y
mutación sobre ofertas del oponente y propias, o basándonos en modelos estándar para
determinados perfiles de agente.
Los criterios de aceptación se pueden basar en muchas cosas, por ejemplo, en condiciones del
entorno o en conocimiento sobre el oponente. El criterio racional es uno de los más aceptados:
𝑎𝑐𝑐𝑒𝑝𝑡 𝑈𝑎𝑖 (𝑋) ≥ 𝑠𝑎𝑖 (𝑡 + 1)
𝑎𝑐𝑐𝑒𝑝𝑡𝑎𝑖 (𝑋, 𝑡) = {
𝑟𝑒𝑗𝑒𝑐𝑡 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Un dominio orientado a la tarea (Task Oriented Domain -TOD) es una tripleta:
(T, Ag, c)
donde:
< 𝑇1 , … , 𝑇𝑛 >
donde 𝑇𝑖 ⊆ 𝑇 para cada 𝑖 ∈ 𝐴𝑔.
Dado un encuentro < 𝑇1 , 𝑇2 > una oferta será una asignación de las tareas 𝑇1 ∪ 𝑇2 a los agentes
1 y 2. El coste para i de la oferta 𝛿 =< 𝐷1 , 𝐷2 > es 𝑐(𝐷𝑖 ) y lo denotaremos por 𝑐𝑜𝑠𝑡𝑖 (𝛿). La
utilidad de la oferta 𝛿 del agente i es:
El conjunto de ofertas sobre las que negocian los agentes son aquellas que son:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
• Si ningún agente realiza una concesión en alguna ronda (u>0), entonces la negociación
acaba con la oferta conflicto.
La disposición a correr riesgo de conflicto supone que has concedido mucho. Entonces:
La estrategia de Zeuthen está en equilibrio Nash bajo la suposición que un agente está usando
la estrategia y el otro no puede hacer nada mejor que utilizarla el mismo. Esto es de particular
interés para el diseñador de agentes automáticos. Se elimina cualquier necesidad de secreto por
parte del programador. La estrategia de un agente puede ser de conocimiento público, y ningún
otro diseñador de agentes puede explotar la información eligiendo una estrategia diferente. De
hecho, es deseable que la estrategia sea conocida, para evitar conflictos involuntarios.
Las funciones de utilidad complejas utilizan espacios de búsqueda. Hay que modelar este tipo
de preferencias complejas como:
• Matrices de influencia.
• Restricciones hiperrectángulos.
• Grafos de utilidad.
• Restricciones hiper-cónicas.
• Redes o grafos CP.
• Independientes del tipo de preferencias.
Los modelos presentados hasta ahora son ciegos, solo se centran en el proceso actual de
negociación. En la realidad podemos estar llevando a cabo varias negociaciones a la vez para
obtener el mismo producto, las llamadas outside options. Los entornos son dinámicos y
aparecen y desaparecen oportunidades.
• Utilidad de reserva: ésta puede ser actualizada a la mejor oferta recibida de entre todos
los oponentes.
• Estrategia de concesión: podemos conceder menos cuando hay más outside options.
• Aceptación de ofertas: podemos rechazar ofertas aceptables si consideramos que en
un futuro vamos a recibir mejores.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
La negociación multilateral puede entenderse como:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
TEMA 6 (II).- COORDINACIÓN
1.-INTRODUCCIÓN
El problema de coordinación de múltiples agentes surge en múltiples aplicaciones, tanto en la
naturaleza como en sistemas artificiales.
La coordinación en SMAs trata sobre cómo los agentes se comportan individual y socialmente
para que, por un lado, se satisfagan los objetivos personales y, por el otro, los globales. La
coordinación es necesaria ya que los recursos son limitados y se utiliza para que:
• Los agentes de un SMA actúan guiados por la consecución de sus objetivos individuales
(self-interested), es decir, compiten. En estas situaciones los protocolos de interacción
son orientados a maximizar los valores de la función de utilidad generados por las
acciones de los agentes.
• Existen situaciones en la que comparten objetivos comunes (benevolent), es decir,
cooperan. En éstas, los protocolos de interacción se enfrentan a:
o Trabajar con objetivos comunes o tareas comunes.
o Evitar conflictos en la medida de lo posible y mantener un flujo correcto de
conocimiento y evidencias.
Si todo un sistema es nuestro (sistema cerrado), podemos diseñar agentes que se ayuden entre
ellos siempre que se les requiera. En este caso se puede asumir que los agentes son benévolos,
es decir, nuestro mejor interés es su mejor interés. La solución de problemas en los sistemas
benévolos es la Resolución Distribuida de Problemas Cooperativos. La benevolencia simplifica
enormemente el diseño de tareas.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Existen dos modos principales de resolver problemas cooperativamente:
• Compartir tareas: se distribuyen los componentes de una tarea entre los agentes.
• Compartir resultados: se distribuyen la información.
En ambos casos, hay que tener en cuenta quién puede comunicarse con quién utilizando un
grafo de comunicaciones.
Un grafo balanceado tiene el mismo número de arcos de entrada que de salida, para todos los
nodos.
Los grafos AND/OR de tareas y objetivos representan las dependencias entre objetivos y tareas
que se necesitan para cumplir objetivos primitivos (nodos hoja del árbol). Algunas suposiciones
son:
• Sean dos agentes, Agente1 y Agente2, han de cumplir los objetivos G10 y G20.
• Gin1,n2,…,nm es un subobjetivo del agente i, hijo nm-ésimo de Gin1,n2,…,nm-1.
• El conjunto de superíndices a1, a2,…,an en un objetivo indica que los agente con esos
índices deben cumplir todos los objetivos.
Las interdependencias se pueden producir entre nodos del grafo. Hay dos tipos de éstas, débiles
o fuertes, dependiendo de si se debe satisfacer necesariamente para que el objetivo se cumpla
o no. También pueden clasificarse en unidireccional o bidireccional, dependiendo del sentido
de la dependencia. La naturaleza de las interdependencias determina el tipo de coordinación.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Para construir un árbol de este tipo, los pasos son los siguientes:
Algunas de las actividades serán cooperativas y otras serán realizadas por un solo agente. Esto
último se decide en la fase de diseño.
La cooperación en un SMA consiste en la actuación coordinada entre agentes de tal manera que
unos colaboran en la resolución de tareas de otros interesada o desinteresadamente.
Normalmente la cooperación es entre agentes benevolentes. Los agentes cooperan de forma
natural al resolver un problema global, cada uno dedicado a su parcela.
• En el diseño.
• Mediante planificación jerárquica.
• Inherente al problema.
El Protocolo de Red de Contratos, Contract Net, sirve para que un agente contrate tareas a otros
agentes. Se deben tener en cuenta las siguientes suposiciones:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
El Sistema de Sensores Distribuidos (DSS) es una red de nodos de sensores distribuidos por área
geográfica amplia. No procesan datos, los adquieren. Hay otra red de nodos procesadores, que
han de recibir datos de los nodos sensores. Éstos no procesan datos de los nodos sensores.
Cada manager debe elaborar una propuesta con la tarea usando un mensaje. Después, un
contractor emite una oferta. Una vez que el manager ha decidido entre todas las ofertas, realiza
la concesión de la realización de las tareas a aquellos nodos apropiados, enviando un mensaje.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885
Si se utiliza asincronía forzada, en cada iteración, cada agente selecciona un único enlace, y no
todos como en el consenso, y sólo esos dos agentes se acercan entre ellos. Si el grafo está
uniformemente conectado, se llega al consenso.
Para encontrar a los proveedores de servicios se usan agentes intermediarios, que en entornos
abiertos permiten la coordinación entre agentes mediante servicios de localización y
comunicación. Ponen en contacto proveedores con clientes. Existen dos tipos:
• Broker: realiza una función de interfaz entre los agentes que proporcionan servicios y
los que los utilizan. Todas las comunicaciones pasan a través de él.
• Matchmaker: empareja solicitantes con proveedores, a diferencia del bróker, se limita
a poner en contacto. No todas las comunicaciones pasan a través de él.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5694885