Regresión de mínimos cuadrados parciales

La regresión de mínimos cuadrados parciales o Partial least squares regression (PLS regression) es un método estadístico que tiene relación con la regresión de componentes principales, en lugar de encontrar hiperplanos de máxima varianza entre la variable de respuesta y las variables independientes, se encuentra una regresión lineal mediante la proyección de las variables de predicción y las variables observables a un nuevo espacio. Debido a que tanto los datos de X e Y se proyectan a nuevos espacios, la familia de los modelos PLS se conoce como factor de modelos bilineales. Los cuadrados mínimos parciales Análisis discriminante (PLS-DA) es una variante que se utiliza cuando la Y es binaria.

La regresión de mínimos cuadrados parciales se utiliza para encontrar las relaciones fundamentales entre las dos matrices (X e Y), es decir, un enfoque de variable latente para modelar la estructura de covarianza en estos dos espacios. Un modelo de PLS trata de encontrar el sentido multidimensional en el espacio de X que explica la dirección de la máxima varianza multidimensional en el espacio Y. regresión de mínimos cuadrados parciales es especialmente adecuada cuando la matriz de predictores tiene más variables que observaciones, y cuando hay multicolinealidad entre los valores de X. Por el contrario, de no usarse este modelo se producirá un error estándar de la regresión en estos casos.

El algoritmo de la regresión PLS se emplea en el modelado de ruta PLS,^[1]^[2] un método para modelar una red "causal" de variables latentes, la palabra 'causal' se pone entre comillas, porque las causas, obviamente, no se pueden determinar sin experimentos o cuasi -métodos experimentales. Esta técnica es una forma de modelos de ecuaciones estructurales, que se distingue del método clásico por estar basadas en componentes en lugar de las covarianza.^[3]

El método de mínimos cuadrados parciales se introdujo por el estadístico sueco Herman Wold, quien lo desarrolló con su hijo, Svante Wold. Un término alternativo para el PLS (y más correctamente según Svante Wold^[4]) es la proyección sobre estructuras latentes, pero la expresión de mínimos cuadrados parciales sigue siendo dominante en muchas áreas. Aunque las aplicaciones originales estaban en las ciencias sociales, la regresión PLS es hoy en día más utilizado en Quimiometría y áreas relacionadas. También se utiliza en la bioinformática, Sensometrics, la neurociencia y la antropología. Por el contrario, PLS ruta modelado es la más utilizada en las ciencias sociales, la econometría, la comercialización y la gestión estratégica.

Modelo subyacente

El modelo subyacente general de PLS multivariantes es:

{\begin{aligned}X&=TP^{\top }+E\\Y&=UQ^{\top }+F,\end{aligned}}

donde $X$ es una matriz $n\times m$ predictores, $Y$ es una matriz de $n\times p$ respuestas; $T$ y $U$ son matrices $n\times l$ que son, respectivamente, proyecciones de X (el X score, component o factor matrix) y proyecciones de Y (the Y scores); $P$ y $Q$ son, respectivamente, $m\times l$ y $p\times l$ matrices de cargo ortogonales; y matrices $E$ y $F$ son los términos de error, supone que los independientes e idénticamente distribuidas las variables aleatorias normales. Las descomposiciones de X e Y se hacen con el fin de maximizar la covarianza de T y U.

Algoritmos

Un número de variantes de PLS existe para estimar el factor de carga y las matrices $T,P$ y $Q$ . La mayoría de ellos constructo estimaciones de la regresión lineal entre $X$ e $Y$ como $Y=X{\tilde {B}}+{\tilde {B}}_{0}$ . Algunos algoritmos PLS sólo son apropiados para el caso en el que Y es un vector columna, mientras que otros tratan el caso general de una matriz $Y$ . Algoritmos también difieren en si se estima la matriz de factores $T$ como una vista ortogonal, una matriz ortonormal o no.^[5]^[6]^[7]^[8]^[9]^[10] La predicción final será el mismo para todas estas variedades de PLS, pero los componentes será diferente.

PLS1

PLS1 es un algoritmo utilizado ampliamente apropiado para el vector $Y$ caso. Estima $T$ como una matriz ortonormal. En pseudocode se expresa a continuación (las mayúsculas son matrices, las letras minúsculas son vectores si son superíndice y escalares si son subíndice):

 1  function PLS1( $X,y,l$ )
 2   $X^{(0)}\gets X$ 
 3   $w^{(0)}\gets X^{T}y/||X^{T}y||$ , an initial estimate of  $w$ .
 4   $t^{(0)}\gets Xw^{(0)}$  
 5  for  $k$  = 0 to  $l$ 
 6       $t_{k}\gets {t^{(k)}}^{T}t^{(k)}$  (note this is a scalar)
 7       $t^{(k)}\gets t^{(k)}/t_{k}$ 
 8       $p^{(k)}\gets {X^{(k)}}^{T}t^{(k)}$ 
 9       $q_{k}\gets {y}^{T}t^{(k)}$  (note this is a scalar)
10      if  $q_{k}$  = 0
11           $l\gets k$ , break the for loop
12      if  $k<l$ 
13           $X^{(k+1)}\gets X^{(k)}-t_{k}t^{(k)}{p^{(k)}}^{T}$ 
14           $w^{(k+1)}\gets {X^{(k+1)}}^{T}y$ 
15           $t^{(k+1)}\gets X^{(k+1)}w^{(k+1)}$ 
16  end for
17  define  $W$  to be the matrix with columns  $w^{(0)},w^{(1)},...,w^{(l-1)}$ .
    Do the same to form the  $P$  matrix and  $q$  vector.
18   $B\gets W{(P^{T}W)}^{-1}q$ 
19   $B_{0}\gets q_{0}-{P^{(0)}}^{T}B$ 
20  return  $B,B_{0}$

Esta forma del algoritmo no requiere el centrado de la entrada X e Y , Ya que esto se realiza implícitamente por el algoritmo. Este algoritmo cuenta con "deflación" de la matriz X (Sustracción de The Kid t ^ {(k)} {p ^ {(k)}} ^ T ), Pero la deflación del vector y no se lleva a cabo, ya que no es necesario (se puede demostrar que desinflar y produce los mismos resultados que no se desinfla.). La variable proporcionada por el usuario l es el límite en el número de factores latentes en la regresión, y si es igual al rango de la matriz X , El algoritmo va a producir las estimaciones de regresión de mínimos cuadrados para los B y B_0

Extensiones

En 2002 se publicó un nuevo método llamado proyecciones ortogonales a las estructuras latentes (OPLS). En OPLS, datos variables continuas se separan en información predictiva y no correlacionadas. Esto conduce a la mejora de los diagnósticos, así como de visualización más fácil de interpretar. Sin embargo, estos cambios sólo mejoran la interpretabilidad, no la capacidad de predicción de los modelos PLS.^[11] L-PLS regresión PLS se extiende a 3 bloques de datos conectados.^[12] Del mismo modo, OPLS-DA (Análisis discriminante) se puede aplicar cuando se trabaja con variables discretas, como en la clasificación y los estudios de biomarcadores.

Referencias

↑ Tenenhaus, M.; Esposito Vinzi, V.; Chatelinc, Y-M.; Lauro, C. (enero de 2005). «PLS path modeling» (PDF). Computational Statistics & Data Analysis 48 (1): 159-205. doi:10.1016/j.csda.2004.03.005. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ Vinzi, V.; Chin, W.W.; Henseler, J. et al., eds. (2010). Handbook of Partial Least Squares. ISBN 978-3-540-32825-4.
↑ Tenenhaus, M. (2008). «Component-based structural equation modelling» (PDF). Archivado desde el original el 3 de noviembre de 2013. Consultado el 1 de agosto de 2013.
↑ Wold, S; Sjöström, M.; Eriksson, L. (2001). «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems 58 (2): 109-130. doi:10.1016/S0169-7439(01)00155-1.
↑ Lindgren, F; Geladi, P; Wold, S (1993). «The kernel algorithm for PLS». J. Chemometrics 7: 45-59. doi:10.1002/cem.1180070104.
↑ de Jong, S.; ter Braak, C.J.F. (1994). «Comments on the PLS kernel algorithm». J. Chemometrics 8 (2): 169-174. doi:10.1002/cem.1180080208.
↑ Dayal, B.S.; MacGregor, J.F. (1997). «Improved PLS algorithms». J. Chemometrics 11 (1): 73-85. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#.
↑ de Jong, S. (1993). «SIMPLS: an alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems 18 (3): 251-263. doi:10.1016/0169-7439(93)85002-X.
↑ Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). «A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm». J. Chemometrics 8 (2): 111-125. doi:10.1002/cem.1180080204.
↑ Abdi, H. (2010). «Partial least squares regression and projection on latent structure regression (PLS-Regression)». Wiley Interdisciplinary Reviews: Computational Statistics 2: 97-106. doi:10.1002/wics.51.
↑ Trygg, J; Wold, S (2002). «Orthogonal Projections to Latent Structures». Journal of Chemometrics 16 (3): 119-128. doi:10.1002/cem.695.
↑ Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. (2008). «LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables». Chemometrics and Intelligent Laboratory Systems 91 (2): 121-132. doi:10.1016/j.chemolab.2007.10.006.

Datos: Q422009

[1] Tenenhaus, M.; Esposito Vinzi, V.; Chatelinc, Y-M.; Lauro, C. (enero de 2005). «PLS path modeling» (PDF). Computational Statistics & Data Analysis 48 (1): 159-205. doi:10.1016/j.csda.2004.03.005. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[2] Vinzi, V.; Chin, W.W.; Henseler, J. et al., eds. (2010). Handbook of Partial Least Squares. ISBN 978-3-540-32825-4.

[3] Tenenhaus, M. (2008). «Component-based structural equation modelling» (PDF). Archivado desde el original el 3 de noviembre de 2013. Consultado el 1 de agosto de 2013.

[wold_2001-4] Wold, S; Sjöström, M.; Eriksson, L. (2001). «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems 58 (2): 109-130. doi:10.1016/S0169-7439(01)00155-1.

[5] Lindgren, F; Geladi, P; Wold, S (1993). «The kernel algorithm for PLS». J. Chemometrics 7: 45-59. doi:10.1002/cem.1180070104.

[6] Jong, S.; ter Braak, C.J.F. (1994). «Comments on the PLS kernel algorithm». J. Chemometrics 8 (2): 169-174. doi:10.1002/cem.1180080208.

[7] Dayal, B.S.; MacGregor, J.F. (1997). «Improved PLS algorithms». J. Chemometrics 11 (1): 73-85. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#.

[8] Jong, S. (1993). «SIMPLS: an alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems 18 (3): 251-263. doi:10.1016/0169-7439(93)85002-X.

[9] Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). «A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm». J. Chemometrics 8 (2): 111-125. doi:10.1002/cem.1180080204.

[10] Abdi, H. (2010). «Partial least squares regression and projection on latent structure regression (PLS-Regression)». Wiley Interdisciplinary Reviews: Computational Statistics 2: 97-106. doi:10.1002/wics.51.

[11] Trygg, J; Wold, S (2002). «Orthogonal Projections to Latent Structures». Journal of Chemometrics 16 (3): 119-128. doi:10.1002/cem.695.

[12] Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. (2008). «LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables». Chemometrics and Intelligent Laboratory Systems 91 (2): 121-132. doi:10.1016/j.chemolab.2007.10.006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]