Am eigenen Schopfe …

Frühe Abschätzung der Prozessfähigkeit aus einem DOE
Septemberausgabe der QZ, Qualität und Zuverlässigkeit, Hanser Verlag
PDF-Datei

Was hat der Baron von Münchhausen mit Versuchsplanung zu tun? Er ist für Lügen bekannt, Versuchsplanung für Wahrheit! Er ist für einen unglaublichen Ideenreichtum bekannt, der seinesgleichen sucht und der vielen (Lügen-)Geschichten unvergesslichen Reiz und Spannung verleiht.

Dieser B. v. M. hat durch seine Taten und Erzählungen auch einen Beitrag zur Systematisierung in der Entwicklung und ausgerechnet zur Trennung von Lüge und Wahrheit im Kontext statistischer Analysen geleistet! Er ist nämlich Taufpate der Methode des Bootstrapping, einer Methode zu Bestimmung von Konfidenzintervallen für diverse statistische Kenngrößen, die keine (besser kaum) Verteilungsannahmen voraussetzt.

Rettet er sich nicht in einer seiner berühmtesten Geschichten aus prekärster Lage indem er sich am Schopf aus dem Sumpf zieht? Oder wenn man Wikipedia glauben schenken darf: “…. escaping from a swamp by pulling himself up by his own hair (or bootstraps, depending on who tells the story)”. Tja, englischen Sprachraum heißt es tatsächlich meist "an den Schnürriemen". Für Bradley Efron jedenfalls, 1979 Erfinder der Bootstrap-Methode zur Schätzung statistischer Streuung stand der Baron v. M zumindest Pate für die Namensgebung der Methode (siehe [1], S. 5) und somit einmalig auch für die Suche nach Wahrheit!

In der Septemberausgabe der QZ, Qualität und Zuverlässigkeit, Hanser Verlag, erscheint von Prof. Andreas Orth und Mathias Probst ein Artikel zu DoE und der Schätzung von Prozessfähigkeitsindizes.

Da der Artikel erschienen ist, finden Sie an dieser Stelle Simulationsdaten und ein R-Skript für die Durchführung des Bootstrap im Kontext der Versuchsplanung.

In der Versuchsplanung sind die Fehlerfortpflanzungsregeln etwas komplexer als für die Mittelwertbestimmung, dennoch, unter der idealen Voraussetzung eines Modells ohne Schwächen (ohne sog. bias) und unter der Annahme unabhängiger und ungefähr normalverteilter Versuchsfehler kann man die Fehler von Modellschätzer und Einzelprognose unmittelbar ausrechnen. Modellprognosen sind nämlich gewichtete Mittelwerte, also lineare Kombinationen, der beobachteten Versuchswerte, die durch eine Matrixgleichung der Art, y^ = Hy berechnet werden können. Die Einträge der H-Matrix sind die Gewichte, die sich aus dem Versuchsplan und der Modellgleichung berechnen lassen. Die Formel ist H = X(XtX)-1Xt, wobei X die sog. erweiterte Versuchsmatrix ist. Die Matrix H heißt im Jargon die Hat-Matrix, weil sie dem y den Hut aufsetzt, y^ = Hy, will heißen: aus den Beobachtungen die Modellprognosen macht. Die Diagonalelemente, hi, der Hat-Matrix bestimmen, wie groß der Einfluss einer Beobachtung, yi, auf seine eigene Prognose, y^i, ist. Für einen Eckpunkt ist diese sog. leverage (Hebelwirkung) typischerweise sehr groß, für einen Zentrumspunkt sehr klein. Der Modellschätzfehler an einem neuen (erweiterten) Prognosepunkt, x+, ist dann gegeben durch +/RSD∙√(x+(XtX)-1 x+t), wobei RSD die Residualstandardabweichung, also das versuchsplanerische Pendant zu der Standardabweichung, s, ist. Der Einzelprognosefehler an dem Prognosepunkt ist dann +/RSD∙√(x+[I + (XtX)-1] x+t). Wie bei der Mittelwertbestimmung erhält man die zugehörigen Konfidenzintervalle bzw. Prognoseintervalle durch Multiplikation mit dem entsprechendem t-Wert, also ~2 bei 95% und ~3 bei 99,5% Vertrauensniveau.

Bei der Verwendung der Bootstrap-Methode, die auf Bradley Efron zurückgeht und in [1] theoretisch und in [2] praktisch, d.h. mit vielen Beispielen und mit Programm-Code für die Open-Source Software, R, ausführlich beschrieben wird, verzichtet man explizit auf die Fehlerfortpflanzungsmethode zur Bestimmung von Konfidenzintervallen und Prognoseintervallen und somit bis zu einem gewissen Grad auf die Annahmen der Modellvalidität und der unabhängigen und normalverteilten Versuchsfehler. Ähnlich wie bei der Monte Carlo Methode wird gewürfelt, nur diesmal nicht nach einer Verteilung, deren Form (nämlich Normalverteilung) man annehmen muss, und deren Lage und Breite man mittels Modell- und Fehlerfortpflanzungsrechnung bestimmt, sondern diesmal direkt nach den Residuen, also den Abweichungen von Modellwert und beobachtetem Wert an den Versuchspunkten; um es genau zu sagen: Es wird von den sog. gelöschten Residuen (deleted residuals) aus der so bekannten Kreuzvalidierung gewürfelt, bei der zur Bestimmung eines Modellwertes die beteiligte Beobachtung mit 0 gewichtet wird (seine Leverage wird also abgeschaltet), so dass der Modellwert allein aus den anderen Beobachtungen ermittelt wird. So schwer es zu verstehen ist, so leicht ist es zu berechnen: Residuum, ei = yi – y^i und gelöschtes Residuum ri = ei / (1 – hi).
Bem.: Es wird eigentlich nicht das Residuum gelöscht, sondern bei der Modellbestimmung zur Berechnung des Residuums wird die Beobachtung gelöscht, die zu dem Residuum gehört.

Nun wird gesampelt, also gewürfelt: Man zieht mit Zurücklegen Proben der Größe n ( = Versuchsanzahl), die r*r genannt seien, und zwar insgesamt R = 1000 Stück, also r = 1, …, R. (Man beachte: es gibt sehr, sehr, sehr viele solcher unterschiedlicher Proben, insgesamt nämlich (2n-1)!/(n!n!) Stück.) Möchte man nun den Schätzfehler abschätzen, so erstellt man R = 1000 neue Modelle mit den rechten Seiten  y*r = y^+ r*r, bekommt somit R = 1000 Koeffizientensätze, beta*r, und am Prognosepunkt, x+, R = 1000 Modellschätzer, y+*r. Sortiert man nun diese, und sucht wie beim Monte Carlo-Verfahren die Einträge Nr. alphaR und (1alpha)R, in der Sortierung, so bekommt man Perzentilintervalle für die Modellschätzer.

Möchte man nun Intervalle für die Einzelprognosen, so zieht man ein weiteres Mal von den gelöschten Residuen: für jeden der R = 1000 Durchläufe jetzt aber nur noch M = 1 oder 2 Mal, die gezogenen Werte werden mit eps*rm bezeichnet. Nun simuliert man die Prognosefehler mittels

delta*rm = y+*r(y^+ +eps*rm ),

berechnet die fehlerbehafteten Prognosen,

y^*rm = y^+ delta*rm,

sortiert diese und ermittelt in der Sortierung den alphaRM-ten und (1alpha)RM-ten Wert. Und wieder gilt: Es ist einfacher gemacht als verstanden.

  • [1] Efron, B; Tibshirani, R.J.: An Introduction to the Bootstrap. Chapman&Hall/CRC (1993)
  • [2] Davison, A.C.; Hinkley, D.V.: Bootstrap Methods and their Applications. Cambridge University Press (1997)