Machine PDF
Machine PDF
Machine PDF
Aprendizaje Automático
Ingenierı́a Informática
27 de febrero de 2009
En Esta Sección:
10 Procesos de Decisión de Markov
Definición de Aprendizaje por Refuerzo
Procesos de Decisión de Markov
Definición de un MDP
Polı́ticas y Optimalidad
Programación Dinámica
11 Aprendizaje por Refuerzo
Aprendizaje Por Refuerzo
Aproximaciones Libres de Modelo
Métodos Basados en el Modelo
Representación de la función Q
Generalización en Aprendizaje por Refuerzo
Discretización del Espacio de Estados
Aproximación de Funciones
Ejemplos de Aplicación
Fernando Fernández y Daniel Borrajo Aprendizaje Automático
Aprendizaje Por Refuerzo
Procesos de Decisión de Markov
Generalización
Aprendizaje por Refuerzo
Ejemplos de Aplicación
Introducción
Funciones de Actualización
Ejemplo
Suponer el siguiente MDP determinista
a1
s1 s2
a2
a1
a2 a3
s4
a2 s3 a3
Tabla Q Inicial:
Q(s,a) a1 a2 a3
s1 0 0 0
s2 0 0 0
s3 0 0 0
s4 0 0 0
Fernando Fernández y Daniel Borrajo Aprendizaje Automático
Aprendizaje Por Refuerzo
Procesos de Decisión de Markov
Generalización
Aprendizaje por Refuerzo
Ejemplos de Aplicación
Ejemplo
Ejemplo
Q(s,a) a1 a2 a3
s1 0 0,5 0
s2 0 1 0
s3 0 0 1
s4 0 0 0
Ejemplo
Tabla Q óptima:
Q ∗ (s, a) a1 a2 a3
s1 0,5 0,5 0,25
s2 0,25 1 0,5
s3 0,5 0.5 1
s4 0 0 0
Polı́tica óptima:
π ∗ (s3 ) = arga máx Q(s3 , a) = a3
π ∗ (s2 ) = a2
π ∗ (s1 ) = a1
Otra polı́tica óptima: igual que la anterior pero con
π ∗ (s1 ) = a2
e Q(s,ai )/τ
P(ai ) = P Q(s,aj )/τ
aj ∈A e
Inicialización de la función Q
Sesgar la selección de acciones con conocimiento del dominio
adicional
Actions {a 1 , ..., a L }
States
...
Problema: espacio de estados
{s 1 , ...,s N }
...
Q Table: continuo o de gran tamaño
Q(s,a) Solución: métodos de
s ... ... ... ...
generalización
Aproximaciones ad-hoc
...
Q(s,a L)
basadas en conocimiento del
...
...
Arg
dominio
... Max
ai
Discretización del espacio de
ai
Q(s,a 1 ) estados
Aproximación de funciones
Actions
States
...
...
Q Table:
s ... ... ... ...
Q(D(s),a) Problema:
... ... ... ... Discretizaciones erróneas
pueden romper fácilmente la
...
State Space
Q(D(s), a1)
propiedad de Markov
Representation: ...
D(s) Cuántas regiones necesitamos
... Max
ai ai
para discretizar el espacio de
... estados?
Q(D(s), aL )
Ejemplo
0 1 2 3 4 5
0000
1111
1111
0000 Goal Area
5 0000
1111
0000
1111
0000
1111
0000
1111 Non−determinism Introduced:
0000
1111
0000
1111 Same action from same state
0000
1111
0000
1111
4 0000
1111 produces different immediate
rewards
3
Limits of the Regions
(6 x 6 discretization)
Level 1
20
Level 2
15
dist(k2,C)
Level 3
10
Level 3
5
Level 5
0
0 1000 2000 3000 4000 5000 6000
example
25
20
dist(k3,C)
15
10
0
0 5 10 15 20 25
dist(k2,C)
Tile #1
25
Tile #2
20
dist(k3,C)
15
10
0
0 5 10 15 20 25
dist(k2,C)
diferencias dentro de la 25
región: 20
dist(k3,C)
15
en la función de valor 10
en la polı́tica 5
... 0
0 5 10 15 20 25
dist(k2,C)
Aproximación de Funciones
^ ^
Qa (s) Q(s, a 1)
1
a1
NN 2 NN 1
^ ^
Qa (s) Q(s, a )
2
2
a2
Arg a ai Arg a ai
s NN 3 i
s NN 1 i
Max Max
Q^ a (s) ^ a )
Q(s,
3
3
a3
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
NN L NN 1
Q^ a (s) ^
Q(s, a )
L L
aL
Entradas:
1 Un espacio de estados X
2 Un conjunto de L acciones, A = {a1 , . . . , aL }
3 Una colección T de N tuplas de experiencia del tipo
< s, ai , s 0 , r >, donde s ∈ X es un estado desde donde la
acción ai es ejecutada y s 0 es el estado resultante
Sea Q̂ 0 (s, a) = 0
iter = 0
Repetir
Inicializar los conjuntos de aprendizaje T iter = ∅
Desde j=1 hasta N, utilizando la j ésima tupla < sj , aj , sj0 , rj >
hacer
cj = rj + máxa∈A γ Q̂ iter −1 (sj0 , a)
T iter = T iter ∪ {< sj , aj , cj >}
Entrenar Q̂ iter (s, a) para aproximar el conjunto de aprendizaje
T iter
iter = iter + 1
Hasta que el vector cj no cambie
0 1 2 3 4 5
5 s7 s9 s 12
s 13
s8
s 25
4
s5
s 11
s6 s 23
s 10
s24
3
s4
s 21
2 s 22
s2
s3
s 20
1
s1
T 0 ={(s 1 , norte, 0), (s2 , este, 0), (s3 , norte, 0), (s4 , norte, 0),
. . . , (s12 , este, rmax ), . . . , (s20 , norte, 0), (s21 , este, 0), . . . ,
(s24 , norte, rmax ), . . . }
3 3
Q=0 Q=0
2 2
1 1
0 0
Action "Go North" Action "Go South"
0 1 2 3 4 5 0 1 2 3 4 5
5 5
Goal Goal
(Q=0) (Q=0)
4 4
r max
3 3
Q=0 Q=0
2 2
1 1
0 0
γ r max
3 3
Q=0 Q=0
2 2
1 1
0 0
Action "Go North" Action "Go South"
0 1 2 3 4 5 0 1 2 3 4 5
5 5
Goal Goal
(Q=0) (Q=0)
4 γ r 4
max
r max
3 3
1 1
0 0
2
γ rmax Q=0
2 2
Q=0
1 1
0 0
Action "Go North" Action "Go South"
0 1 2 3 4 5 0 1 2 3 4 5
5 5
Goal Goal
γ 2 rmax (Q=0)
(Q=0)
γ rmax γ r max
4 2 4
r max γ 2 rmax
3 3
2
Q=0 γ rmax γ r max Q=0
2 2
2
γ rmax
1 1
0 0
4 4
3 2
γ 4 rmax γ 3 r γ rmax
2
γ r max γ 6 rmax γ 5 rmax γ 4 rmax γ rmax γ rmax
max
3 3
3
γ rmax γ rmax γ rmax γ rmax γ rmax
6 5 4
γ rmax γ 4 rmax γ 3 rmax
5 2 7
γ rmax
2 2
γ 3 rmax 6 5 4
γ rmax γ rmax γ rmax γ rmax γ rmax
6 5 4 8 7
γ rmax γ rmax γ rmax
1 1
3 3
3
γ 7 rmax γ rmax γ rmax γ rmax γ rmax
2 6 5 4
4
γ rmax γ rmax γ 3 r
5 γ rmax γ r max
max
2 2
6 5 4
γ rmax γ rmax γ rmax γ rmax γ rmax
2 8 7
γ 6 rmax γ 5 rmax γ 4 rmax γ 3 r γ rmax
max
1 1
TD-Gammon
Juego del backgammon
34 piezas y 24 posiciones posibles: espacio
de estados enorme!!!
20 posibles movimientos por cada tirada de
dado
Perfecto concimiento de espacios de estado,
acción, y transiciones de estado
Refuerzo cuando se gana la partida
V(s) evalua la probabilidad de ganar desde
el estado s
Uso de una red de neuronas para aproximar
V(s)
Aprendizaje mediante una versión no lineal
de TD(λ)
Aprendizaje de los pesos mediante descenso
de gradiente
Fernando Fernández y Daniel Borrajo Aprendizaje Automático
Aprendizaje Por Refuerzo
Procesos de Decisión de Markov
Generalización
Aprendizaje por Refuerzo
Ejemplos de Aplicación
Acrobot
Espacio de estados continuo: 2 ángulos y 2
velocidades
Goal
Espacio de acciones discreto: 2 acciones:
empujar el codo en una dirección y otra
Objetivo: colocar el brazo en posicion θ1
vertical invertida
Perfecto concimiento de espacios de estado,
Elbow
acción, y transiciones de estado
Diversas aproximaciones para
generalización: Variable Resolution θ2
Discretization, redes de neuronas, árboles
de decisión, etc.
RLATES:
Estado: conocimiento que dispone el
alumno sobre el contenido del tutor Domain
Knowledge Browser
Def
.....
Definición
Subtema 1.1
SubT
Defn1
........
Subtemas
T
.........
Def
E jemplos
Subtema 1.n
SubT
Tema 1
P ro blemas
.......................
........ T
Ejercicios
Ejer11 .....
........
Ejern
1
Tests
.....
.
Navegador
.
..... ... .... ..... ...
Client
1.n
Def11.1 ..... Def n1.1 T1 T n1.n
Student 1
I
alumno Domain
Module
Interface
Module
n
t .
Percepción realizada mediante tests e
r .
Objetivo: obtener una polı́tica
Student
Module
Pedagogical
Module
n
e
t
.
pedagógica Student
Knowledge
Student 1
Pedagogical
Knowledge
Class A
Browser
Navegador
Client
Simplificación a un espacio de
students Student n
Server
Definition
Otras Aplicaciones
Resumen
Bibliografı́a