Redes Neuronales de Funciones Base Radiales
Redes Neuronales de Funciones Base Radiales
Redes Neuronales de Funciones Base Radiales
15 mm 15 mm
am
Elena Nito del Bosque
15 mm
10 mm
Sistemas
Claudio GarcaDiferenciales
Vargas
Exteriores: el teorema de
Frobenius
Redes neuronales
Exterior Differential de funciones
Systems: Frobenius
theorem
base radiales
Radial Basis Functions Neural Networks
Trabajo Fin de Grado
Departamento de Anlisis
Matemtico
Trabajo Fin de Grado
La Laguna,
Grado Octubre de 2016
en Matematicas
La Laguna, junio de 2017
Dirigido por
Mara Isabel Marrero Rodrguez
Mara Isabel Marrero Rodrguez
Dpto. de Analisis Matematico
Universidad de La Laguna
Aptdo. de Correos 456
38200 La Laguna, Tenerife
Agradecimientos
Quisiera aprovechar estas lneas para agradecer a todos los profesores que
han sido partcipes de mi formacion a lo largo de estos anos. Mencion espe-
cial a mi tutora del Trabajo Fin de Grado, la profesora Mara Isabel Marrero
Rodrguez, no solo por guiarme a traves del mismo sino tambien por su apoyo
en todo momento.
Resumen Abstract
Resumen
En teora de la aproximacion, las funciones radiales condicionalmen-
te definidas positivas, o funciones base radiales (RBF, por sus siglas
en ingles), se usan para resolver problemas de interpolacion en da-
tos dispersos del espacio eucldeo. Entre los muchos subproductos de
la interpolacion RBF resultan particularmente interesantes las re-
des neuronales RBF, cuyo estudio ha evolucionado hasta constituir
una disciplina de interes independiente en el campo de las ciencias
de la computacion y la inteligencia artificial, con numerosas apli-
caciones en areas tan diversas como finanzas, medicina, biologa,
geologa, ingeniera o fsica. El presente trabajo tiene por objeto es-
tudiar, mediante tecnicas de analisis funcional, las propiedades de
interpolacion y aproximacion por redes neuronales RBF en espacios
de funciones continuas e integrables, ilustrando el corpus teorico con
experimentos numericos y alguna aplicacion practica.
Abstract
In approximation theory, conditionally positive definite radial fun-
ctions, or radial basis functions (RBF), are used to solve problems
of interpolation of sparse data in Euclidean space. Among the many
byproducts of RBF interpolation, the RBF neural networks are par-
ticularly interesting, as their study has evolved into an independent
subject in the fields of computer science and artificial intelligence,
with many applications in areas so diverse as finance, medicine, bio-
logy, geology, engineering or physics. The purpose of this report is to
study, by means of functional-analytic techniques, the properties of
interpolation and approximation by RBF neural networks in spaces
of continuous and of integrable functions, illustrating the theory with
some numerical experiments and practical applications.
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Resumen/Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Poster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Introduccion
entrada y 0 en las demas. Cada persona traza las letras de forma diferente (mas
aun, nadie traza dos iguales), pero supongamos que disponemos de un conjunto
de imagenes que sabemos a que letra corresponden, escritos por un conjunto de
varias personas, llamado muestra o base de datos. El primer paso es entrenar la
red. Para ello se procede como sigue:
(x) = x2 ln x.
La funcion cubica:
(x) = x3 .
La funcion lineal:
(x) = x.
Notese que esta funcion es lineal en x, pero (kx xn k) es no lineal en las
componentes de x.
El uso de metodos de funciones base radiales en problemas de interpolacion
exacta se ilustra en la figura 1.1, considerando una aplicacion de una entrada y
una salida.
La generalizacion a varias variables de salida es inmediata. Cada vector de
entrada xn debe ser aplicado exactamente en un unico vector de salida tn , de
componentes tnk . As, (1.1) se convierte en
hk (xn ) = tnk , n = 1, 2, . . . , N,
donde los hk (x) se obtienen por superposicion lineal de las mismas N funciones
base que se usaron en el caso de una sola variable de salida:
1.2 Redes neuronales de funciones base radiales 3
X
hk (x) = wkn (kx xn k). (1.6)
n
Observese que en (1.7) se usa la misma matriz 1 para todas las funciones de
salida.
Si se desea, los sesgos wk0 pueden ser incluidos dentro del sumatorio anadiendo
una funcion base extra, que denotaremos por 0 , cuya activacion se establece en
1. En el caso de funciones base gaussianas se tiene
!
kx j k2
j (x) = exp , (1.9)
2j2
salida
pesos
funciones centros
base
entrada
Figura 1.2. Arquitectura de una red neuronal de funciones base radiales, correspon-
diente a (1.8). Cada funcion base actua como una unidad oculta. Los segmentos que
conectan las funciones base j con las entradas representan las componentes ji del
vector j Los pesos wkj se muestran como segmentos que conectan las funciones base
con las unidades de salida, y los sesgos como pesos de una funcion base extra 0 cuya
salida se establece en 1.
y(x) = W,
donde tnk es el valor objetivo de la unidad de salida k-esima cuando la red tiene a
xn como vector de entrada. Como la funcion de error es una funcion cuadratica
de los pesos, es posible encontrar su mnimo en terminos de la solucion de un
sistema de ecuaciones lineales, a saber,
siendo (T)nk = tnk y ()nj = j (xn ). La solucion formal para los pesos viene
dada por
W> = T,
donde
= (> )1 >
denota la matriz pseudoinversa de .
Si la matriz no es cuadrada, evidentemente no tendra una verdadera
inversa; sin embargo, la pseudoinversa posee la propiedad de que = I,
siendo I la matriz identidad. Observese que, en general, 6= I. En caso de
que la matriz > sea singular, el sistema (1.11) no tendra solucion unica. No
obstante, si se define la matriz pseudoinversa como
los parametros de las funciones base, incluyendo j . Por el momento, nos limi-
taremos
172 a hacer notar el efecto que producen
5: Radial elecciones inadecuadas de : las
Basis Functions
figuras 1.4 y 1.5 muestran el resultado de elegir valores de muy pequenos y
muy grandes, respectivamente.
1.0
0.5
0.0
0.0 0.5 1.0
FiguraFigure
1.3. 5.3. This shows
La grafica the same
muestra set of 30
el mismo data points
conjunto de 30aspuntos
in Figure
de5.1, together
la figura 1.1, junto
with a network mapping (solid curve) in which the number of basis functions
con una aplicacion de la red (curva solida) en la que el numero de funciones base se ha
has been set to 5, which is significantly fewer than the number of data points.
fijado en
The5,centres
cantidad significativamente
of the basis functions haveinferior al to
been set numero de subset
a random datos. of
Como centros de
the data
las funciones
set input vectors, and the width parameters of the basis functions have beenentrada.
base se ha elegido aleatoriamente un subconjunto de los datos de
Como set
parametro de amplitud
to a common value of para todas
a = 0.4, las funciones
which base se
again is roughly ha fijado
equal =
to twice the0,4, que
de nuevo vienespacing
average a ser elbetween
doble dethelacentres.
distancia
Themedia entre los
second-layer centros.
weights Los pesos
are found by de la
segunda capa se han
minimizing determinadoerror
a sum-of-squares minimizando unasingular
function using funcionvalue
de error cuadratico medio
decomposition.
mediante descomposicion en valores singulares.
1.0
0.5
0.0
0.0 0.5 1.0
Figure 5.4. As in Figure 5.3, but in which the width parameter has been set
Figura 1.4. La grafica muestra la misma situacion que la figura 1.3, pero tomando
toCT= 0.08. The resulting5-4:
network function is insufficiently smooth and gives 173
Regularization
como amplitud = 0,08. La funcion resultante theory
de la red no es suficientemente suave y
a poor representation of the underlying function which generated the data.
proporciona una representacion muy pobre de la funcion que genero los datos.
1.0
0.5
0.0
0.0 0.5 x 1.0
Figure 5.5. As in Figure 5.3, but in which the width parameter has been set to
Figura 1.5. La grafica muestra la misma situacion que la figura 1.3, pero tomando
a = 10.0. This leads to a network function which is over-smoothed, and which
como amplitud = 10,0. La funcion resultante de la red es excesivamente suave y, de
again gives a poor representation of the underlying function which generated
nuevo, the
proporciona
data. una representacion muy pobre de la funcion que genero los datos.
where P is the adjoint differential operator to P and S(x) is the Dirac delta
function. The equations (5.23) are the Euler-Lagrange equations corresponding
to (5.22). A formal solution to these equations can be written down in terms of
the Green's functions of the operator PP, which are the functions G(x, x') which
10 1 Redes neuronales RBF
X
{y(xn ) tn }(x xn ) + PbP y(x) = 0, (1.13)
n
(G + I)w = t. (1.17)
0
Aqu, (G)nn0 = G(kxn xn k), (w)n = wn , (t)n = tn , e I denota la matriz
identidad.
Si, en particular, se elige el operador P tal que
X 2l
|P y|2 dx = |Dl y(x)|2 dx,
l!2l
l=0
1.0
0.5
0.0
0.0 0.5 x 1.0
Figure 5.6. This shows the same data set as in Figure 5.1, again with one basis
Figura 1.6. La grafica muestra la misma situacion que la figura 1.1, con igual amplitud
function centred on each data point, and a width parameter a = 0.067. In this
= 0,067,
case, pero anadiendo
however, un termino
a regularization de is
term regularizacion de coeficiente
used, with coefficient v = 40, leading
= 40. Aunque
la funcion resultante (representada por la curva de trazo continuo)
to a smoother mapping (shown by the solid curve) which no longer gives no se ajusta
an a los
datos, exact
es masfitsuave
to theydata,
proporciona
but whichuna
nowaproximacion
gives a much mucho mejor a la funcion
better approximation to theobjetivo
(representada
underlying porfunction
la curvawhich
de trazo discontinuo).
generated the data (shown by the dashed curve).
can again be found by the solution of a set of linear equations which minimize a
sum-of-squares error. laFor
En la practica, example, the tambien
regularizacion regularizerse aplica a redes neuronales de
funciones base radiales en las que las funciones base no estan necesariamente
centradas en los datos, y en las que el numero de funciones base no coincide con el
numero de datos. Ademas, se pueden k considerar
l x
* terminos
' de regularizacion cuyas
funciones base no son necesariamente las funciones de Green. Mientras el termino
depenalizes mappings
regularizacion sea which have large
una funcion curvaturede
cuadratica (Bishop, 1991b).proporcionada
la aplicacion This regularizerpor
la leads
red, to
lossecond-layer
pesos de laweights
segundawhich
capa are pueden
found byser solution of
calculados, de nuevo, como
solucion de un sistema de ecuaciones lineales que minimiza un error cuadratico.
Por ejemplo, el regularizador MW = $TT (5.31)
2
X X X 2 ykn
where
2 n i
x2i
k
(5.32)
penaliza las aplicaciones quen tienen
\ curvatura
i \ grande
l y
l conduce a pesos de la
segunda capa que son solucion del sistema
and $ = ((f)1-) as before. When v = 0 (5.31)>reduces to the previous result (5.20).
MW
The inclusion of the regularization =
term addsT,little to the computational cost,
(1.18)
since most of the time is spent in solving the coupled linear equations (5.31).
12 1 Redes neuronales RBF
donde ( !)
X X 2 nj 2 nj0
(M)jj 0 = nj nj0 +
n i
x2i x2i
Figura 1.7. Funcion y(x1 ) modelizada mediante una red de funciones base radiales.
Por tanto, existen razones de cierto calado que aconsejan el uso de metodos
no supervisados para determinar los parametros de la segunda capa de una red
RBF mediante la modelizacion de la densidad de los datos de entrada. Este
metodo tambien ha probado su eficacia en la practica. Sin embargo, es necesario
advertir que una eleccion optima de los parametros de las funciones base para
estimar la densidad no siempre conduce a un ajuste optimo de la curva. Tal
situacion se ilustra en la figura 1.9.
14 1 Redes neuronales RBF
Figura 1.9. Ilustracion del hecho de que el uso de metodos no supervisados que
se apoyan en una estimacion de la densidad para determinar los parametros de las
funciones base no es necesariamente optimal a la hora de aproximar la funcion objetivo.
El conjunto de datos esta representado por los crculos y se genera a partir de una
distribucion gaussiana p, que se corresponde con el trazo discontinuo. El aprendizaje
no supervisado de una funcion base gaussiana la centrara en el punto a, dando una
buena aproximacion a p. Los valores objetivo para los datos de entrada estan generados
a partir de una gaussiana centrada en b y representada mediante el trazo solido. La
funcion base centrada en a no proporciona un buen ajuste a la curva h, mientras que
si la funcion base estuviera centrada en b representara h de manera exacta.
Aunque por razones de espacio no las desarrollaremos aqu, cabe citar que
la simple seleccion de un subconjunto de datos como centros de las funciones
base se puede mejorar usando tecnicas de clustering para encontrar un conjunto
de centros que refleje con mayor exactitud la distribucion de todos los datos.
Entre estas tecnicas se encuentra el algoritmo clustering de K-medias [19] o el
mapa de caractersticas autoorganizado [13].
donde los parametros P (j) son los coeficientes mixtos y j (x) las funciones base
de la red. Observese que los coeficientes mixtos pueden ser considerados como las
probabilidades a priori de los datos que han sido generados por la componente
mixta j-esima. La funcion de verosimilitud viene dada por
Y
L= p(xn )
n
2.1. Introduccion
La posibilidad de aproximacion universal mediante redes neuronales pro-
gresivas (densidad del conjunto de estas funciones en espacios de funciones con-
tinuas o integrables) ha sido estudiada por muchos investigadores, entre los que
podemos citar los siguientes: Chen y Chen [3]; Cybenko [6]; Hornik [11, 12];
Leshno, Lin, Pinkus y Schocken [16]; Mhaskar y Micchelli [18]; Park y Sand-
berg [20, 21]. Bajo un conjunto de restricciones muy leves sobre las funciones de
activacion que se encuentran en la capa oculta, estos autores han demostrado
que una red neuronal progresiva de tres capas es capaz de aproximar una ex-
tensa clase de funciones, incluyendo tanto a las funciones continuas como a las
integrables.
Los resultados conocidos en la literatura se han construido principalmente
sobre redes neuronales progresivas de tres capas con un unico nodo de salida
lineal. En este captulo se mantendra este diseno estandar. Las funciones que se
pueden obtener mediante redes neuronales progresivas de tres capas son de la
forma
XN
ci g(x, i , bi ),
i=1
donde N representa el numero de nodos ocultos, x Rn es una variable y, para
i = 1, 2, . . . , N , bi , ci R, i Rn son parametros y g(x, i , bi ) es la funcion de
activacion que se usa en la capa oculta.
Cabe destacar que la mayora de estas funciones de activacion se pueden
categorizar en dos clases: funciones ridge y funciones base radiales. Las funciones
ridge son de la forma
g(x, , b) = (> x + b),
donde es una funcion de R en R, x Rn es una variable, Rn es un vector
director y b R es un sesgo. La sigmoide, de uso comun, es un ejemplo de
20 2 Aproximacion universal por redes neuronales RBF
kx k2
g(x) = exp .
b
2.2. Preliminares
A lo largo de este captulo se empleara la siguiente notacion: Rn denotara el
espacio eucldeo real n-dimensional y K un subconjunto compacto de Rn . El
conjunto de todas las funciones continuas definidas en K, con la norma del
maximo
kf kC(K) = max |f (x)|,
xK
sera denotado por C(K). Ademas, C (Rn ) hara referencia al conjunto de todas
las funciones infinitamente diferenciables definidas en Rn , y Cc (Rn ) al conjunto
de todas las funciones infinitamente diferenciables con soporte compacto en Rn .
Recordemos que, dada una medida finita , la norma del supremo esencial
de una funcion f se define como
Denotamos por L (Rn ) el conjunto de todas las funciones f para las cuales
kf kL (Rn ) < , y por Lp () el conjunto de todas las funciones f tales que
kf kLp () < .
Analogamente, dado un conjunto compacto K Rn se consideran la nor-
ma kkL (K) para el espacio L (K) y la norma kkLp (K) para el espacio Lp (K).
El conjunto de todas las funciones f tales que kf kL (K) < (respectivamente,
kf kLp (K) < ) para cada conjunto compacto K Rn se denotara por L d
loc (R )
p d
(respectivamente, Lloc (R )).
Diremos que una funcion es continua en casi todo punto con respecto a una
medida , si el conjunto de sus puntos de discontinuidad tiene -medida nula.
Un conjunto de funciones S es denso en C(K) (respectivamente, en Lp ()), si
para cualquier > 0 y f C(K) (respectivamente, f Lp ()), existe g S tal
que kg f kL () (respectivamente, kg f kLp () ).
La convolucion de dos funciones f y g se define como
(f g)(x) = f (x t)g(t) dt (x Rn ).
Rn
22 2 Aproximacion universal por redes neuronales RBF
span {(ax + ) : a R, Rn }
= span { (ax + ) : a R, Rn }
es denso en C(K) con respecto a la norma del maximo, es decir, dada una
funcion f C(K) y cualquier > 0, existe g tal que |f (x) g(x)| para
todo x K.
Demostracion. Supongamos que no es denso en C(K). Por el teorema de
Hahn-Banach (cf. [6]), existe una medida signada finita 6= 0 en K, tal que
(ax + ) d(x) = 0 (a R, Rn ).
K
n
Como C (R ), usando el desarrollo de Taylor en varias variables podemos
escribir
2.3 Resultados principales 23
X 1 X a||
(ax + ) = (D )()(ax) = (D )()x
! !
||=0 ||=0
X 1 X 1
= () + a (D )()x + a2 (D )()x + .
! !
||=1 ||=2
Sea
H(a) = (ax + ) d(x).
K
Puesto que H(a) = 0 para todo a R y todo Rn , la derivada k-esima de H
con respecto a a se expresa de la siguiente forma:
dk H
dak "
X k!
#
X (k + 1)!
= (D )()x + a
(D )()x + d(x) = 0,
K ! !
||=k ||=k+1
no es un polinomio.
2.3 Resultados principales 25
donde
Yk = {u DB : grado ( u) k} (k N)
es un subespacio de DB . Ademas, cada Yk (k N) es cerrado en DB . Para
verlo, fijemos k N y supongamos que {uj } j=1 Yk es tal que lmj uj = u
en la topologa de DB . Entonces lmj uj = u tambien en la topologa de D
[23, Theorem 6.5]. Como la aplicacion es continua de D en C (Rn ) [23,
Theorem 6.33], sigue que lmj uj = u en la topologa de C (Rn ). Pero
la sucesion { uj }
j=1 esta en efl espacio de todos los polinomios de grado no
superior a k, el cual es un subespacio de C (Rn ) de dimension finita, y por lo
tanto cerrado [23, Theorem 1.21]. Esto conlleva a que u sea un polinomio de
grado no mayor que k, as que u Yk .
Llegados a este punto, se puede aplicar el teorema de categora de Baire
[23, Section 2.2] para inferir que algun Ym tiene interior no vaco. Como Ym es
un subespacio de DB , esto fuerza a que Ym = DB y establece nuestra afirmacion
sobre la existencia de m.
Para completar la prueba, se considera una identidad aproximada {hj } j=1
DB [23, Definition 6.31]. Entonces, como se acaba de demostrar, cada hj
(j N) es un polinomio de grado no mayor que m, y lmj hj = en la
topologa de D0 [23, Theorem 6.32]. El operador D ( N, || = m + 1) es
secuencialmente continuo de D0 en D0 [23, Theorem 6.17], de manera que
0 = lm D ( hj ) = D ( N, || = m + 1)
j
podemos escribir:
2.3 Resultados principales 27
n !n
m mn
X X 2T
(x ti ) (t) dt (x ti ) (ti )
m
i=1 i
i=1
mn
X
= (x ti ) [(t) (ti )] dt
i i=1
mn
X
|(x ti )| |(t) (ti )| dt.
i=1 i
i = (i \U ) (i U ) (i = 1, 2, . . . , mn )
|(x t) (x ti )| |(t)| dt
i=1 i
m
X
n
= |(x t) (x ti )| |(t)| dt
i=1 i \U
m
X
n
|(x t) (x ti )| |(t)| dt 2.
i=1 i
Se concluye que
mn
!n
X 2T
(x t) (t) dt (x ti ) (ti ) 3
m
Rn
i=1
Demostracion. Por el Lema 2.2, sabemos que existe algun Cc (Rn ) tal que
no es un polinomio. Como C (Rn ), por el Teorema 2.1 se tiene
que span {( )(ax + ) : a R, Rn } es denso en C(K). Por el Lema
2.3, puede ser aproximado uniformemente desde , de donde se infiere que
span {( )(ax + ) : a R, Rn } puede ser aproximado uniformemente
desde . As pues, es denso en C(K). t
u
2.3 Resultados principales 29
Como
" #
|(ax + t)(t)g(x)| dt d(x)
Rn Rn
( )(ax + )g(x) d(x)
Rn
" #
= (ax + t)(t) dt g(x) d(x)
Rn Rn
" #
= (ax + t)g(x) d(x) (t) dt = 0.
Rn Rn
Nmero de datos: 30
Nmero de centros: 30
Amplitud de la P-gaussiana: 0.8
Amplitud de la N-gaussiana: 0.067
La RBF produce un P-aproximante
La N-matriz de activacin es inversible
Coeficiente de N-regularizacin = 0
La RBF produce un N-interpolante no
regularizado
Figura 2.1. Con 30 datos, 30 centros, y amplitudes 0.8 para la P-gaussiana y 0.067
para la N-gaussiana, la P-RBF produce un aproximante y la N-RBF, un interpolante.
Comparese con la figura 1.1.
Nmero de datos: 30
Nmero de centros: 5
Amplitud de la P-gaussiana: 1
Amplitud de la N-gaussiana: 0.4
La RBF produce un P-aproximante
Coeficiente de N-regularizacin = 0
La RBF produce un N-aproximante no regularizado
Figura 2.2. Con 30 datos, 5 centros, y amplitudes 1 para la P-gaussiana y 0.4 para la
N-gaussiana, ambas RBFs producen una buena aproximacion. Comparese con la figura
1.3.
32 2 Aproximacion universal por redes neuronales RBF
Nmero de datos: 30
Nmero de centros: 30
Amplitud de la P-gaussiana: 0.8
Amplitud de la N-gaussiana: 0.067
La RBF produce un P-aproximante
La N-matriz de activacin es inversible
Coeficiente de N-regularizacin = 0.4
La RBF produce un N-interpolante regularizado
Figura 2.3. Con 30 datos, 30 centros, y amplitudes 0.8 para la P-gaussiana y 0.067
para la N-gaussiana, la N-RBF necesita una regularizacion con coeficiente 0.4 para
conseguir un ajuste similar al de la P-RBF. Comparese con las figuras 1.6 y 2.1.
Figura 2.4. Aproximacion con 100 datos de entrenamiento y 30 centros elegidos alea-
toriamente, tomando como amplitudes 0.2 para la gaussiana y 0.8 para su recproca.
Se observa que esta ultima proporciona una aproximacion mucho mejor que aquella.
3
Aplicacion a problemas de clasificacion
Supongamos que se modelizan los datos de cada clase Ck usando una unica
funcion nucleo, la cual escribimos como p(x|Ck ). El objetivo en un problema de
clasificacion es modelizar las probabilidades a posteriori p(Ck |x) para cada una
de las clases. Tales probabilidades se pueden obtener a traves del teorema de
Bayes mediante las probabilidades a priori p(Ck ), como sigue:
p(x|Ck )p(Ck )
p(Ck |x) = (3.1)
p(x)
p(x|Ck )p(Ck )
= P .
k0 p(x|Ck )p(Ck )
0 0
Y se podran interpretar como una forma simple de red RBF con funciones base
normalizadas, dadas por
p(x|Ck )
k (x) = P ,
k0 p(x|Ck )p(Ck )
0 0
donde las conexiones de la segunda capa consistiran en un peso desde cada uni-
dad oculta a la correspondiente unidad de salida, con valor p(Ck ). Las salidas de
esta red representan, por tanto, aproximaciones a las probabilidades a posteriori.
En la practica, en lugar de una unica funcion nucleo (que no proporciona
una buena representacion de las distribuciones p(x|Ck )) se toma una cantidad M
de ellas, etiquetadas por un ndice j, para representar cada una de las densidades
condicionadas a las clases. As, escribimos
M
X
p(x|Ck ) = p(x|j)p(j|Ck ). (3.2)
j=1
siendo X
p(j) = p(j|Ck )p(Ck ).
k
PM
j=1 p(j|Ck )p(x|j)p(Ck ) p(j)
p(Ck |x) = PM (3.4)
0 0
j 0 =1 p(x|j )p(j )
p(j)
M
X
= wkj j (x), (3.5)
j=1
p(x|j)p(j)
j (x) = PM = p(j|x)
0 0
j 0 =1 p(x|j )p(j )
p(j|Ck )p(Ck )
wkj = = p(Ck |j).
p(j)
As, las activaciones de las funciones base pueden ser interpretadas como las
probabilidades a posteriori de la presencia de las correspondientes caractersticas
en los datos de entrada, y los pesos pueden ser similarmente contemplados como
las probabilidades a posteriori de pertenencia a una clase determinada, dada la
presencia de esas caractersticas.
Con el fin de que tenga una sola salida, consideraremos un alfabeto binario.
Supongamos que los smbolos susceptibles de ser introducidos en el codificador
son dos vectores 1 , 2 R2 , es decir, que nuestro alfabeto esta formado por el
36 3 Aplicacion a problemas de clasificacion
decidir H2 si x
f (x|H2 ) p1
> .
fx (x|H1 ) p2
3.2 Ejemplo: decision de smbolos enviados en un sistema de comunicacion 37
2 >
xc = ,0 , r ' 2,34.
3
Tambien se puede calcular teoricamente la probabilidad de error que se ob-
tendra en caso de que el selector decida de forma optima. Resolviendo numerica-
mente la integral (3.8) resulta que Pe = 0,1849; en consecuencia, la probabilidad
de que decida correctamente es Pc = 0,8151.
class RBF :
http://www.rueckstiess.net/research/snippets/show/72d2363e.
42 Apendice
if __name__ == __main__ :
# regresion RBF
rbf = RBF (1 , n , m , 1) # entrada y salida
unidimensionales , con n datos y m centros
rbf . train (x , y , n , m , " P ") # entrenamiento de la P -
RBF con los datos de entrada y los datos
objetivo con ruido
zP = rbf . test (u , " P ") # salida de la P - RBF
rbf . train (x , y , n , m , " N ") # entrenamiento de la N -
RBF con los datos de entrada y los datos
objetivo con ruido
zN = rbf . test (u , " N ") # salida de la N - RBF
# graficas -----
plt . figure ( figsize = (8 , 8) )
plt . plot (u , zP , r , linewidth = 2 , label = r $g ( x )
= $ + salida red RBF )
plt . plot (u , v , k - , linewidth = 2 , label = r $f ( x )
= 0.5 + 0.4\ , sen \ ,(2\ pi x )$ )
plt . plot (x , y , b . , label = ruido gaussiano )
plt . legend ( loc = 3)
plt . xlabel (r $x$ , fontsize = 12)
Apendice 45
plt . tight_layout ()
plt . show ()
ELEMENTOS BSICOS
TAMAOS MNIMOS
En este apartado se establecen
los tamaos mnimos en los que
se puede reproducir la marca.
15 mm
ELEMENTOS BSICOS
CONFIGURACIONES DE LA MARCA
15 mm
Claudio Garca Vargas 15 mm
am
Facultad de Ciencias Seccin de Matemticas
Universidad de La Laguna
[email protected]
Poster
Elena Nito del Bosque 9
itive definite radial functions, or radial ba- where is a basis function, the vectors
Exteriores: el teorema de
sis functions (RBF), are used to solve
problems of interpolation of sparse data
xn are called centers, and the scalars w n
are weights. Initially they were introduced
Frobenius
in Euclidean space. Among the many
byproducts of RBF interpolation, the RBF
to solve exact interpolation, but nowa-
days they constitute a field of indepen-
neural networks are particularly interest- dent interest within computer science and
Exterior Differential Systems: Frobenius
ing. The purpose of this report is to artificial intelligence, with manifold appli-
Figure 1: Approximation by a P-gaussian
17
study, by means of functional-analytic RBF.
theorem
techniques, the properties of interpola-
cations to areas as diverse as finance,
medicine, biology, geology, engineering
tion and approximation by RBF neural or physics. Besides exact interpolation,
networks in spaces of continuous and of some of the topics treated are network
integrable functions, illustrating the the- training, regularization theory and opti-
Trabajo
ory with some Fin de Grado
numerical experiments and mization of basis functions (including data
practical applications. de Anlisis
Departamento subsets, clustering algorithms, orthogonal
Matemtico least squares and gaussian mixed mod-
1. Introduction els), as well as supervised training.
La Laguna, Octubre de 2016
An artificial neural network is an infor- 3. Universal approximation by RBF neural Figure 2: Approximation by a N-gaussian
mation processing system whose perfor- networks RBF.
mance is inspired by that of biological
neural networks. Originally, artificial neu- In this chapter, following [5] (cf. also [6]
ral networks intended to model the opera- and [2]) we study the universal approxi- 4. Application to classification problems
tion of these. With the course of time, ar- mation property of three-layered radial ba-
tificial models have emerged that lack any sis function (RBF) networks. We show In this section, a probabilistic approach to
biological signification but have proved that the integrability condition usually im- RBF networks is given, and an application
themselves to be useful for solving infor- posed on the activation function can be of this approach to symbol classification in
mation processing problems. dropped. Instead, the following holds. a communication channel is discussed.
The result of the processing occurring in
Theorem 3.1 Let be a function from Rn
a neuron is a non-linear function of the References
to R. If is continuous almost every-
inputs and of a set of parameters. This
where, locally essentially bounded, and
point constitutes the basis of the opera-
not a polynomial then, for any compact set [1] C.M. B ISHOP: Neural networks for
tion of neural networks, because the set
K Rn , = span {(ax + ) : a R, Rn } is pattern recognition. Clarendon Press,
of parameters on which such functions de-
uniformly dense in C (K ), that is, given any 1995.
pend are adjusted according to what they
f C (K ) and any > 0, there exists g [2] C.A. C RUZ -R ODRGUEZ , C. G ARCA -
are learning. After training, with a good al-
such that k f g kL(K ) for all x K . VARGAS , I. M ARRERO: Further com-
gorithm and a sufficiently good sample, a
neural network is capable to perform the Theorem 3.2 Let be a finite measure ments on Relaxed conditions for
task it has been trained for with a high de- on Rn and a function from Rn to R. If radial-basis function networks to be
gree of accuracy. L () is not a polynomial, then = universal approximators. Revista de
The learning of neural networks can oc- span {(ax + ) : a R, Rn } is dense en la Academia Canaria de Ciencias 27
cur in two ways: supervised or unsuper- L p (), for all 1 p < . (2015/2016), 2931.
vised. In supervised mode, learning is These results are illustrated by the so- [3] G. FASSHAUER: Meshfree approxima-
achieved directly by comparing the out- called P-gaussian and N-gaussian func- tion methods with MATLAB. World Sci-
put of the network with the correct answer tions, respectively given by entific, 2007.
already known. In unsupervised mode, ! [4] S. DE L EN P REZ: Aproximacin uni-
the available information is only in correla- kx k2 versal por modelos computacionales
F (x) = exp ,
tion with the input or signal data. Artificial b ridge y redes neuronales. Trabajo Fin
neural networks can also be classified by ! de Grado en Matemticas, Universidad
their architecture in regressive or progres- kx k2 de La Laguna, septiembre 2014.
sive networks, according to whether or not G(x) = exp .
b [5] Y. L IAO, S.- C. FANG , H.L.W. N UT-
they allow feedback among layers. TLE : Relaxed conditions for radial-
Here, x Rn is the variable, Rn is a
center vector, and b R is a width pa- basis function networks to be univer-
2. RBF neural networks rameter. Although the N-gaussian G is sal approximators. Neural Networks 16
integrable while the P-gaussian F is not, (2003), 10191028.
The purpose of this work is to give a F satisfies the hypotheses of the above [6] W. W U, D. N AN , J.- L . L ONG , Y.- M .
general overview of radial basis functions theorems. In fact, figures 1 and 2 show M A: A comment on Relaxed condi-
(RBF) neural networks and study their in- that a RBF with P-gaussians as activation tions for radial-basis function networks
terpolation and approximation properties. functions can perform a better approxi- to be universal approximators. Neural
These are a kind of progressive neural mation than a N-gaussian based RBF. Networks 21 (2008), 14641465.