Kriging

Typ von Linearer Regression

Unter Kriging (oder auch: Krigen) versteht man ein geostatistisches Prognose- und Interpolationsverfahren, mit dem man eine räumlich verortete Variable an Orten, an denen sie nicht gemessen wurde, durch umliegende Messwerte interpolieren oder auch annähern kann. Stark vereinfacht könnte man sagen, diese Prognose ist eine Art gewichteter Mittelwert aus allen oder einigen der bekannten Messwerte einer Stichprobe. Außerhalb der Geostatistik ist das Verfahren als Gaußprozess-Regression bekannt.[1]

Farbliche Darstellung von Ertragswerten eines Ackers nach einer Kriging-Interpolation

Der südafrikanische Bergbauingenieur Danie Krige entwickelte 1951 für den Goldbergbau eine Interpolationsmethode, die auf der Abhängigkeit der Messwerte von den Abständen basiert, die zwischen den zugehörigen Messpunkten liegen. Der französische Mathematiker und Ingenieur Georges Matheron veröffentlichte 1960 die Arbeit „Krigeage d’un Panneau Rectangulaire par sa Périphérie“[2], welche die theoretische Grundlage der von Danie Krige entwickelten Methode schuf und sie nach ihm benannte.

Der wesentliche Vorteil gegenüber einfacheren Methoden wie beispielsweise der Inversen Distanzwichtung ist die Berücksichtigung der räumlichen Varianz, die sich mit Hilfe von Semivariogrammen ermitteln lässt. Die Semivarianz beschreibt, wie die Unterschiede zwischen den Messwerten zunehmen bzw. die Ähnlichkeit zwischen den Messwerten abnimmt, wenn der Abstand zwischen den Messpunkten größer wird. Sie eignet sich also dafür, die Gewichte der Mittelwertsbildung zu bestimmen, indem sie für näher gelegene Stichprobenwerte größere Gewichte, und für entferntere Stichprobenwerte kleinere Gewichte vergibt. Für einen gesuchten Wert werden dabei die Gewichte der in die Berechnung einfließenden Messwerte so bestimmt, dass der Prognosefehler möglichst gering ist. Der Prognosefehler hängt dabei von der Qualität des Variogramms bzw. der Variogrammfunktion ab, also wie gut das Semivariogrammmodell die tatsächliche räumliche Autokorrelation beschreibt.

Bei einfacheren Interpolationsverfahren können bei Häufung der Messpunkte Probleme auftreten. Dies wird beim Kriging vermieden und zwar durch die Berücksichtigung der statistischen Abstände zwischen der in die Berechnung eines Punktes einfließenden Nachbarn und Optimierung der gewichteten Mittel. Tritt an einer Stelle eine Clusterung auf, werden die Gewichte der Punkte innerhalb dieses Clusters gesenkt.

Unter Kriging versteht man die Bestimmung der besten linearen Prognose (oder Vorhersage) (englischer Kurzbegriff BLP, best linear prediction) eines Messwertes an einem nicht beobachteten Ort auf der Basis von Messwerten an beobachteten Orten. Dabei werden die Messwerte als Realisierungen von Zufallsvariablen (zufälliger Messungen) modelliert, die ein Zufallsfeld mit bekannter Erwartungswertfunktion und Kovarianzfunktion bilden. Werden in einem allgemeineren Kontext unbekannte Parameter in der Erwartungswertfunktion unverzerrt (erwartungstreu) geschätzt, so ergibt sich das Konzept der besten linearen unverzerrten Prognose (englischer Kurzbegriff BLUP, best linear unbiased prediction).

Modellannahme

Bearbeiten

Die Messwerte   eines interessierenden Merkmals an den Orten   werden als Realisierungen von reellwertigen Zufallsvariablen   aufgefasst, die ein Zufallsfeld   mit der Indexmenge   bilden.[3] Eigenschaften der gemeinsamen Wahrscheinlichkeitsverteilung des Zufallsfeldes sind die Erwartungswertfunktion

 

und die Kovarianzfunktion

 

Im Spezialfall eines gaußschen Zufallsfeldes liegt durch die Erwartungswertfunktion und die Kovarianzfunktion die multivariate Wahrscheinlichkeitsverteilung der Zufallsvariablen   als multivariate Normalverteilung fest.

Statistische Fragestellung und Kriging-Lösung

Bearbeiten

Das Kriging beantwortet die Aufgabenstellung, einen Prognosewert   an einem nicht beobachteten Ort   auf der Basis beobachteter Messwerte   an den Orten   anzugeben. Im einfachsten Fall, wenn die Erwartungswertfunktion bekannt ist, handelt es sich um ein Prognoseverfahren. In Fällen, in denen Parameter der Ewartungswertfunktion geschätzt werden müssen, handelt es sich um eine kombiniertes Schätz- und Prognoseverfahren.

Bekannte Parameter

Bearbeiten

Der einfachste Fall liegt vor, wenn die Erwartungswertfunktion und die Kovarianzfunktion bekannt sind. In diesem Fall ist die beste lineare Prognose (BLP) durch

 

gegeben. Dabei gelten die folgenden Bezeichnungen:

  •   bezeichnet den Erwartungswert der Zufallsvariablen  ,
  •   bezeichnet den Vektor der beobachteten Messwerte,
  •   ist ein ( )-Vektor mit den Erwartungswerten   für  ,
  •   ist eine ( )-Kovarianzmatrix mit den Kovarianzen   und
  •   ist ein ( )-Vektor mit den Kovarianzen   für  .

Der hochgestellte Index   bezeichnet die Transponierung und   bezeichnet die invertierte Matrix.

Geschätzte Parameter

Bearbeiten

Wenn die Erwartungswertfunktion unbekannt ist und durch eine bekannte Funktion   und einen unbekannten Parametervektor   in der Form

 

dargestellt werden kann, ergibt sich ein kombiniertes Schätz- und Prognoseproblem, das durch die Angabe der besten linearen unverzerrten Prognose (BLUP) gelöst werden kann. Diese führt dann zum Prognosewert

 

mit dem Schätzwert

 

für den unbekannten Parametervektor  . Dabei ist   eine ( )-Matrix, bei der in der  -ten Zeile der Vektor   steht.

Beste lineare Prognose (BLP)

Bearbeiten

Minimierung des mittleren quadratischen Prognosefehlers

Bearbeiten

Die beste lineare Prognose beruht auf der Minimierung des mittleren quadratischen Prognosefehlers

 

zwischen der Prognose   und der nicht beobachteten Zufallsvariable  .[3] Dabei wird bei der Minimierung die Menge der zulässigen Funktionen auf lineare Funktionen der Form

 

beschränkt.[3] Die   sind die zufälligen Messungen an den Stellen  ,   ist eine Konstante ist und die Koeffizienten   sind Gewichte der einzelnen Messungen. Die Bildung des Erwartungswertes bezieht sich sowohl auf die Zufallsvariable   als auch auf die Zufallsvariablen  , die in   eingehen.

Die Parameter   der besten linearen Prognose im Sinn der Minimierung des mittleren quadratischen Prognosefehlers sind die Komponenten der Minimalstelle   mit der Eigenschaft

 

Sie hängen nur von der Erwartungswertfunktion und der Kovarianzfunktion des Zufallsfeldes   ab.[3] Für den Parametervektor   gilt[4]

 

und für den Parameter   gilt[4]

 .

Aus den bekannten Parametern  ,  ,   und   können die Parameter   und   bestimmt werden.

Der Minimalwert des mittleren quadratischen Prognosefehlers ist   mit  .[4]

Bester linearer Prognoswert

Bearbeiten

Für gegebene Messwerte   als Realisierungen der Zufallsvariablen   ist dann der Wert

 

der beste lineare Prognosewert für die Messung am Ort  . Der beste lineare Prognosewert ist eine Realisierung der Zufallsvariablen

 

die als beste lineare Prognose bezeichnet wird. Der zufällige Prognosefehler (die zufällige Prognoseabweichung)   hat den Erwartungswert 0 und die Varianz  .

Anmerkungen

Bearbeiten
  • Die obige Darstellung enthält die stillschweigend gemachte Voraussetzung, dass die Zufallsvariablen   für   jeweils eine endliche Varianz besitzen. Ohne diese Annahme, die beispielsweise für Cauchy-verteilte Zufallsvariablen verletzt ist, ist das Kriterium der Minimierung des mittleren quadratischen Prognosefehlers nicht anwendbar.
  • Es ist oben vorausgesetzt, dass die Kovarianzmatrix   invertierbar ist und somit die Kovarianzmatrix nicht nur positiv semidefinit, sondern positiv definit ist. Falls die Kovarianzmatrix nicht invertierbar ist, ist für
 
zwar das Minimum, nicht aber die Minimalstelle eindeutig. Für zwei verschiedene minimierende Parametervektoren   und  gilt in diesem Fall
 
sodass zwar die Parameter nicht eindeutig sind, aber der prognostizierte Wert
 
eindeutig ist.[4]
  • Die beste lineare Prognose ist im Allgemeinen nicht die beste Prognose im Sinn der Minimierung des mittleren quadratischen Prognosefehlers, wenn für die Prognose   allgemeinere nichtlineare Funktionen   zugelassen werden.[5]
  • Eine Besonderheit ergibt sich im Spezialfall eines gaußschen Zufallsfelds. Bei dieser speziellen Verteilungsannahme ist die beste Prognose bezüglicher aller, auch nicht-linearer Funktionen, durch die beste lineare Prognose gegeben.[4] In diesem Fall ist also die beste lineare Prognose zugleich die beste Prognose. Außerdem ist die bedingte Verteilung von   gegeben   eine univariate Normalverteilung   mit den Parametern[4]
 
und
 

Beste lineare unverzerrte Prognose (BLUP)

Bearbeiten

Wenn für das Zufallsfeld   die Erwartungswertfunktion und die Kovarianzfunktion bekannt sind, kann der beste lineare Prognosewert (BLP) für den Ort   basierend auf Messwerten   an den Orten   einfach, wie im vorausgegangenen Abschnitt angegeben, berechnet werden.

Wenn aber, was eher typisch ist, die Erwartungswert- und Kovarianzfunktion teilweise unbekannt sind, sind verschiedene einschränkte Modellannahmen erforderlich, um die Zahl der unbekannten Parameter so zu senken, dass diese mit den vorhandenen Beobachtungen schätzbar sind. Es entsteht dann ein kombiniertes Schätz- und Prognoseproblem. Ein bestimmtes Verfahren, bei dem die unbekannten Parameter im Rahmen eines linearen Modellansatzes unverzerrt (erwartungstreu) geschätzt werden, heißt dann beste lineare unverzerrte Prognose (BLUP).

Beispiel

Bearbeiten

Ein einfaches Beispielmodell beruht auf den beiden folgenden stark vereinfachenden Annahmen:

  • Die Erwartungswertfunktion ist konstant, d. h.
 
wobei der Parameter   unbekannt ist.
  • Die Kovarianzfunktion ist
 
wobei der Parameter   bekannt ist. Dabei bezeichnet   die euklidische Distanz zwischen den Orten   und  . Die Distanz kann zweidimensional in der Fläche, im dreidimensionalen Raum oder allgemeiner in einem  -dimensionalen Raum gemessen werden, in dem die euklidische Distanz definiert ist.

Die Korrelationsfunktion ist in diesem Fall durch

 

gegeben. Mit zunehmender Distanz nimmt die Korrelation ab. Mit abnehmender Distanz nähert sich die Korrelation dem Wert Eins. Da die Koordinaten der Orte als bekannt vorausgesetzt sind, können die Distanzen und damit die Werte der Kovarianzfunktion bestimmt werden.

Parameterschätzung

Bearbeiten

Im Beispielmodell gibt es den unbekannten Parameter  . Da die beiden Parameter   und   zugleich der Erwartungswert und die Varianz der   beobachtbaren Zufallsvariablen   sind, also

 

gilt, scheint bei oberflächlicher Betrachtung ein Standardproblem der statistischen Schätztheorie vorzuliegen. Dies ist aber nicht der Fall, da bei Standardproblemen der statistischen Schätztheorie von stochastisch unabhängigen Beobachtungen ausgegangen wird. In diesem Beispiel sind aber alle Beobachtungspaare positiv korreliert, wobei die Korrelation für ein Paar   durch   gegeben ist.

Die Schätzung des Parameters   aus gegebenen beobachteten Werten   kann in diesem Modellzusammenhang mit Hilfe der verallgemeinerten Methode der kleinsten Quadrate erfolgen, die es ermöglicht, bei der Schätzung eine gegebene Korrelationsstruktur zwischen den beobachtbaren Variablen zu berücksichtigen.[6] Im Fall unkorrelierter Variablen führt die gewöhnliche Methode der kleinsten Quadrate zu dem üblichen Schätzwert

 

für den Parameter  . Dabei bezeichnet   den Einsvektor der Dimension  . Dagegen ergibt sich im hier vorliegenden Fall korrelierter Beobachtungen mit der verallgemeinerte Methode der kleinsten Quadrate der Schätzwert

 

für den Parameter  , der im Allgemeinen nicht mit dem arithmetischen Mittelwert   übereinstimmt. Das sich die Komponenten des Gewichtsvektors   zu Eins addieren, wie man durch Rechtsmultiplikation mit dem Vektor   unmittelbar verifiziert, handelt es sich um einen gewogenen arithmetischen Mittelwert der beobachteten Werte  .

Im Spezialfall eines gaußschen Zufallsfeldes ist die multivariate Wahrscheinlichkeitsverteilung der Zufallsvariablen   durch die Erwartungswertfunktion und die Kovarianzfunktion als multivariate Normalverteilung vollständig festgelegt, so dass es möglich ist, den Parameter   bei gegebenen Werten   durch die Maximum-Likelihood-Methode zu bestimmen.[7]

Prognose

Bearbeiten

Wäre der Parameter   bekannt, so ergäbe sich der beste lineare Prognosewert für den Messwert  , wie oben angegeben, als

 

wobei der mittlere quadratische Prognosefehler durch   gegeben ist.

Wenn in einem ersten Schritt ein Schätzwert   für den Parameter   bestimmt ist, kann in einem zweiten Schritt mit der geschätzten Erwartungswertfunktion

 

der beste lineare Prognosewert so bestimmt werden, als ob die Erwartungswertfunktion bekannt sei.[8] Es ergibt sich dann

 

als bester linearer unverzerrter Prognosewert. Der mittlere quadratische Prognosefehler erhöht sich durch den zufälligen Schätzfehler, der durch die Parameterschätzung verursacht ist. Der mittlere quadratische Prognosefehler der besten linearen unverzerrten Prognose ist durch

 

gegeben, wobei der letzte Term auf die Schätzung des Parameters   zurückzuführen ist.[8][9]

Allgemeiner Fall

Bearbeiten

Der allgemeine Fall des Kriging, in dem eine beste lineare unverzerrte Prognose durchführbar ist, liegt vor, wenn die Erwartungswertfunktion teilweise unbekannt ist und durch eine bekannte vektorwertige Funktion   mit   und einen unbekannten Parametervektor   in der Form

 

dargestellt werden kann. Es ergibt sich dann aus dem Ziel, eine Prognose für   abzugeben, ein kombiniertes Schätz- und Prognoseproblem, da für eine Prognose implizit der unbekannte Parametervektor   geschätzt werden muss. Die beste lineare unverzerrte Prognose kann mit einem zweistufiges Vorgehen gewonnen werden, bei dem zunächst der Parametervektor   in einem linearen Modell geschätzt wird und dann mit den gewonnenen Schätzwerten formal eine beste lineare Prognose so berechnet wird, als ob die Schätzwerte die unbekannten Parameter seien.[8]

Parameterschätzung

Bearbeiten

Der unbekannte Parametervektor   wird im Rahmen des linearen Modells

 

gesehen, wobei das Zufallsfeld   die konstante Erwartungswertfunktion   für alle   und dieselbe Kovarianzfunktion wie das Zufallsfeld   hat. Hierbei handelt es sich zunächst nur um eine andere, inhaltlich äquivalente Schreibweise für das Zufallsfeld  , indem man   für alle   definiert. Diese Schreibweise macht es aber möglich, die Theorie linearer Regressionsmodelle mit korrelierten Fehlertermen anzuwenden und den Schätzwert

 

für den unbekannten Parametervektor   als beste lineare unverzerrte Schätzung mit bekannter Kovarianzmatrix zu bestimmen. Dabei bezeichnet   eine ( )-Matrix, bei der in der  -ten Zeile der Vektor   steht.[8]

Prognose

Bearbeiten

Die besten linearen unverzerrten Prognose ergibt sich, wenn der Prognosewert analog zum Vorgehen bei der besten linearen Prognose mit bekannter Erwartungsfunktion so bestimmt wird, als ob der Schätzwert der Parameter wäre. Damit ergibt sich der Prognosewert

 

Der mittlere quadratische Prognosefehler der besten linearen unverzerrten Prognose ist durch

 

mit

 

gegeben, wobei der letzte Term auf die Schätzung des Parametervektors   zurückzuführen ist.[8]

Spezialfälle des Kriging

Bearbeiten
  • Beim einfachen Kriging (simple Kriging) ist die Erwartungswertfunktion konstant,
  für alle  
und der Parameter   ist bekannt. In diesem Fall kommt die beste lineare Prognose zur Anwendung.
  • Beim gewöhnlichen Kriging (ordinary Kriging) ist die Erwartungswertfunktion konstant, aber der gemeinsame Erwartungswert ist unbekannt und muss aus den beobachteten Werten geschätzt werden. In diesem Fall kommt die beste lineare unverzerrte Prognose zur Anwendung. Das oben ausgeführte Beispiel ist ein Fall des gewöhnlichen Kriging.
  • Beim universalen Kriging (universal Kriging) ist die Erwartungswertfunktion nicht konstant und wird durch einen linearen Regressionsansatz modelliert. In diesem Fall kommt die beste lineare unverzerrte Prognose zur Anwendung, wobei Regressionsparameter mitgeschätzt werden.
  • Unter bayesianischem Kriging (bayesian Kriging) versteht man ein Verfahren bei dem der Schritt der Parameterschätzung mit Hilfe bayesianischer Schätzverfahren durchgeführt wird.
  • Das Indikator-Kriging ist ein Spezialfall bei dem die beobachteten Werte nur die Werte 0 und 1 annehmen, beispielsweise den Wert 0, wenn ein Grenzwert nicht überschritten ist, und den Wert 1, wenn ein Grenzwert überschritten ist.
  • Bei der inversen Distanzgewichtung (oder Distanzwichtung) ist der Prognosewert der gewogene arithmetische Mittelwert
 
der beobachteten Werte mit den positiven Gewichten
 
Wie das obige Beispiel zeigt, ergibt sich dieser Fall als beste lineare unverzerrte Prognose, und damit als Spezialfall des gewöhnlichen Kriging, wenn die Erwartungswertfunktion konstant ist und die Kovarianzfunktion die spezielle Form
 
mit   und   hat. In diesem Fall ist   der Nullvektor,   ist eine Diagonalmatrik mit den Diagonalelementen   für   und der Schätzwert   vereinfacht sich zum gewogenen arithmetische Mittelwert  , da sich der Faktor   herauskürzt.

Abweichende Interpretationen und Verallgemeinerungen

Bearbeiten

Teilweise wird in anwendungsnahen Darstellungen zugunsten einer vereinfachten Terminologie das Interpolations- und Prognoseproblem mit Begriffen aus der statistischen Schätztheorie beschrieben.[10] Dadurch verschwimmt der Unterschied zwischen dem Schätzen eines unbekannten Parameters durch eine Schätzfunktion und der Prognose des Wertes einer Zufallsvariablen.

Im engeren Sinn bezeichnet Kriging die oben beschriebene Modellierungsmethode der zu schätzenden Parameter durch ein lineares Modell und die dann explizit angebbaren Lösungen im Sinn der besten linearen unverzerrten Prognose. Teilweise wird Kriging aber auch allgemeiner, orientiert an der Fragestellung des Kringing, für andere methodische Vorgehensweisen verwendet. So werden im Bereich des maschinellen Lernens Methoden der Gaußprozess-Regression basierend auf gaußschen Zufallsfeldern als Kriging bezeichnet.[1][11][12] Die klassische Kriging-Methode benötigt keine Normalverteilungsannahme und verarbeitet nur die Informationen der Erwartungswert- und Kovarianzfunktion im Rahmen einer linearen Modellstruktur mit klassischen statistischen Methoden. Dagegen wird bei der Gaußprozess-Regression durch eine weitgehende Annahme einer multivariaten Normalverteilung für alle Zufallsvariablen die Möglichkeit eröffnet, für die multivariate Normalverteilung zur Verfügung stehende Methoden zur Bestimmung von Prognoseverteilungen als bedingten Wahrscheinlichkeitsverteilungen zu verwenden.[13]

Literatur

Bearbeiten
  • Danie G. Krige: A statistical approach to some basic mine valuation problems on the Witwatersrand. In: J. of the Chem., Metal. and Mining Soc. of South Africa. 52 (6), 1951, S. 119–139.
  • Rudolf Dutter: Mathematische Methoden in der Technik. Band 2: Geostatistik. B.G. Teubner Verlag, Stuttgart 1985, ISBN 3-519-02614-7.
  • J. P. Chiles, P. Delfiner: Geostatistics: Modeling Spatial Uncertainty. Wiley, New York 1999, ISBN 0-471-08315-1.
  • Michael Leonhard Stein: Interpolation of Spatial Data – Some Theory for Kriging (= Springer Series in Statistics). Springer, New York 1999, ISBN 978-1-4612-7166-6, doi:10.1007/978-1-4612-1494-6.
Bearbeiten
Commons: Kriging – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

Bearbeiten
  1. a b Mohamed A. Bouhlel, Joaquim R. R. A. Martins: Gradient-enhanced kriging for high-dimensional problems. In: Engineering with Computers. Band 35, Nr. 1, 1. Januar 2019, ISSN 1435-5663, doi:10.1007/s00366-018-0590-x. Siehe Abschnitt 2.1 Conventional kriging
  2. Centre de Géosciences/Géostatistique, Publications & documentation. Abgerufen am 18. April 2024.
  3. a b c d Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 1.2 Best linear Prediction, S. 2.
  4. a b c d e f Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 1.2 Best linear Prediction, S. 3.
  5. Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 1.4 An example of a poor BLP, S. 6–9.
  6. Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 1.5 Best linear unbiased prediction, S. 7–9.
  7. Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 6.4 Likelihood Methods, S. 169–175.
  8. a b c d e Michael L. Stein: Interpolation of Spatial Data – Some Theory for Kriging. Abschnitt 1.5 Best linear unbiased prediction, S. 8.
  9. Die im Beispiel angegebenen Formeln ergeben sich aus der allgemeineren Darstellung in M. L. Stein, Interpolation of Spatial Data – Some Theory for Kriging, S. 7–8 mit den folgenden Spezialisierungen der dort verwendeten Notation:  ,  ,  ,  .
  10. Jörg Benndorf: Angewandte Geodatenanalyse und -Modellierung – Eine Einführung in die Geostatistik für Geowissenschaftler und Geoingenieure. Springer Vieweg, Wiesbaden 2023, ISBN 978-3-658-39980-1, Kap. 7 Geostatistische Verfahren zur räumlichen Interpolation - Kriging, S. 157–201, doi:10.1007/978-3-658-39981-8.
  11. Carl Edward Rasmussen, Christopher K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, Cambridge / London 2006, ISBN 0-262-18253-X, S. 30 (gaussianprocess.org [PDF]).
  12. Robert B. Gramacy: Surrogates – Gaussian Process Modeling, Design, and Optimization for the Applied Siences (= Texts in Statistical Science). CRC Press, Boca Raton / London / New York 2020, ISBN 978-1-03-224255-2, S. 143 (gramacy.com [PDF]).
  13. Carl Edward Rasmussen, Christopher K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, Cambridge / London 2006, ISBN 0-262-18253-X, S. 16 (gaussianprocess.org [PDF]).