Zuletzt bearbeitet: 25.08.2024
Statistik ist die Wissenschaft davon, wie man aus großen Mengen von Daten sinnvolle kompakte Zusammenfassungen erstellt. Statistik ist die Kunst, von Teilen aufs Ganze zu schließen. Statistik ist gewissermaßen die Wissenschaft vom "genau genug". Bei Statistik geht es oft nicht darum, etwas exakt zu berechnen, z.B. wie weit es Luftlinie vom Loreley-Felsen bis zum Werra-Fulda-Zusammenfluss ist. Es geht eher um Schätzungen von Dingen, die sich nicht oder nur mit zu großem Aufwand direkt messen lassen.
Da wir Menschen alle durch unser Leben geben und niemals alle Informationen kennen, die für unsere Situation relevant sind, sind wir eigentlich alle geborene Statistiker. Wir handeln immer, in dem wir Eigenschaften und Wahrscheinlichkeiten schätzen? Stell dir zum Beispiel vor, du bist - um auch mal wieder Hydrophil-Themen aufzugreifen - am Strand und möchtest eine attraktive Person, auf die du zufällig gerade beim Umziehen einen Blick erhascht hast, gerne ansprechen. Wie wird sie reagieren? Wird sie sichh über deine Kontaktaufnahme freuen? Wir sie dich bitten, sie in Ruhe zu lassen? Du weißt es nicht. Es bleibt dir nichts anderes übrig, als basierend auf deiner Erfahrung ein paar Spekulationen anzustellen. Das ist eine Vorstufe von Statistik.
Oder noch ein bisschen näher an echter, wissenschaftlicher Statistik ist die Tatsache, dass die Meisten von uns im Winter gar nicht erst ihre Badesachen packen; denn wir wissen, dass es uns zu kalt ist. Im Juli dagegen ziehen wir los. Statistisch ausgedrück hieße das soviel wie "Im Januar liegt die Durchschnittstemperatur in Norddeutschland bei etwa 5 Grad Celsius, um Juli dagegen bei etwa 20." Solches Wissen ist für uns selbstverständlich, aber es ist das Ergebnis jahrzehntelanger statistischer Arbeit.
Zuletzt bearbeitet: 25.08.2024
Ein statistisches Konzept, mit dem ich mich eine Weile lang schwergetan habe und wo es jetzt - glaube ich - endlich "Klick" gemacht hat, ist die z-Standardisierung. Die z-Standardisierung wird sehr eingängig beschrieben in Kapitel 3 von "Head First Statistics" von Dawn Griffiths. Sie setzt Verständnis von arithmetischem Mittel und Standardabweichung voraus.
Die z-Standardisierung, auch kurz "z-Wert" genannt, hilft dabei, Daten aus unterschiedlichen Datensätzen zu vergleichen. Man nimmt einen Wert, um den es geht, bildet die Differenz zum arithmetischen Mittel seiner Verteiltung, und teilt diese Differenz durch die Standardabweichung seiner Verteilung. Mit einem anderen Wert aus einer anderen Verteilung macht man das gleiche - und vergleicht dann die beiden Quotienten. Griffiths nutzt das Beispiel zweier Basketballspieler, die in einer Übung beide mehr Punkte erzielen als ihren bisherigen Punkte-Durchschnitt. Aber welcher Spieler hat sich nun stärker verbessert? Dafür wird der Vergleich der z-Werte beider Spieler genutzt.
Ich hatte schon vor längerer Zeit in einem anderen Statistik-Lehrbuch über den z-Wert gelesen. Als ich dann neulich bei Griffiths wieder darauf stieß, merkte ich, dass ich das Konzept noch gar nicht verstanden hatte. Nachdem ich es dieses Mal gelesen hatte, war mir die Errechnung und Verwendung des z-Wertes zwar klar - aber mir fehlte immer noch das tiefere Verständnis. Warum, fragte ich mich, teilt man die Differenz von fraglichem Wert und arithmetischem Mittel noch durch die Standardabweichung? Welche zusätzliche Erkenntnis bringt das? Und welche Bewertung steckt eventuell auch darin? Denn wenn eine größere Standardabweichung im Nenner steht, hat das ja einen kleineren Quotienten, also einen kleineren z-Wert zur Folge.
Ich dachte eine Weile über diesen Punkt nach. Auf dem Sofa, im Garten, unter der Dusche... Aber der Sinn des Schritts, durch die Standardabweichung zu teilen, erschloss sich mir nicht. Dann rief ich spät abends noch auf YouTube das Video "Z-Scores, Standardization, and the Standard Normal Distribution (5.3)" von Simple Learning Pro auf. Als der Sprecher am Anfang des Videos sagte "A z-score tells us how many standard deviations an observation is from the mean μ." ließ ich meine Hand auf die Pause-Taste fallen und dachte: "Das ist es!"
Nachdem ich diesen Satz gehört hatte, fanden plötzlich verschiedene in meinem Gehirn schon gespeicherte Informationen zueinander: Ich machte mir klar, was es eigentlich bedeutet, eine Zahl durch eine andere zu teilen. Bei der Umsetzung der Division als Bruch wird es besonders deutlich. Der Bruch x/y kann auch als "x pro y" gesprochen werden. Mit Blick auf den z-Wert heißt das: Wieviel Differenz vom Mittelwert pro Standardabweichung liegt vor. Ähnlich wie beim Konzept der Prozente, des "pro Zent" oder etwas deutscher ausgedrückt des "pro Hundert" setzt diese Division die Differenz zur Standardabweichung in Beziehung, so wie jede Division Divident und Divisor zueinander in Beziehung setzt. Wir kennen dieses Prinzip auch von der Geschwindigkeitsmessung. Wir fragen nach den km/h, also den Kilometern pro Stunde, und können so die Geschwindigkeit zweier Autos vergleichen. Fährt Auto A 180 Kilometer (km) in zwei Stunden (h) und Auto B 240 Kilometer in drei Stunden - welches fährt dann schneller? Auto A fährt 180km/2h, also 90km/1h, also 90 km/h. Auto B fährt 240km/3h, also 80km/1h, also 80 km/h. Auto A fährt somit schneller. Zu diesem Ergebnis sind wir gekommen, in dem wir beide Divisionen durchgeführt, also durch Kürzung beide Brüche auf den Nenner 1 gebracht haben. Wir bringen die Brüche im wahrsten Sinne des Wortes "auf den gleichen Nenner", ohne das Verhältnis zwischen Zähler und Nenner zu verändern. So wird der Vergleich problemlos möglich.
Beim z-Wert passiert nun das gleiche: Wir teilen die Differenz zwischen den fraglichen Werten und dem arithmetischen Mittel ihrer jeweiligen Verteilung durch die dazugehörige Standardabweichung. So bringen wir die Quotienten aus Differenz und Standardabweichung auf den gleichen Nenner 1 und können sie direkt vergleichen. Wir können damit sagen, welche Differenz in Relation zur Standardabweichung größer ist, weil wir so tun, als wären beide Standardabweichungen 1.
Zum echten Verständnis der z-Standardisierung fehlte mir persönlich dann noch die Antwort auf die Frage, warum die Standardabweichung an dieser Stelle so interessant ist. Ich würde sagen: Der springende Punkt ist, dass eine kleine Differenz zwischen einem Wert und dem arithmetischen Mittel seiner Verteilung einfach unbedeutend ist, wennd die Verteilung eine große Standardabweichung hat - also wenn die einzelnen Werte sehr weit auseinander liegen. Um wieder zu Dawn Griffiths' Beispiel der zwei Basketballspieler zurückzukommen. Wenn einer der beiden von Übung zu Übung oder von Spiel zu Spiel sehr unterschiedliche Ergebnisse erzielt - mal 0 Punkte, mal 3 Punkte, mal 20 Punkte und mal 80 Punkte - dann ist es relativ uninteressant, wenn er in der letzten Übung drei Punkte über seinem Durchschnitt lag. Bei einem Spieler, der monatelang immer entweder 50 oder 51 Punkte gemacht hat, ist es bemerkenswert, wenn er plötzlich einmal 53 schafft. Genau diese intiutiv klare Tatsache lässt sich mit Hilfe der Standardabweichung mathematisch umsetzen - und heraus kommt der z-Wert!
Kowabunga!
Auf die folgenden Werke beziehe ich mich in diesem Statistik-Blog: