17.02.2024
Zwischen Modell und Wirklichkeit besteht immer ein Unterschied. Diesen zu verstehen ist eine Herausforderung richtig angewandter Statistik.
In einem Buch über lineare Algebra habe ich einmal gelesen, wer dieses Gebiet der Mathematik verstehen wolle, dürfe es nicht distanziert von außen betrachten, sondern müsse sich mitten hineinstürzen. Dieser interessante Vorschlag gilt vermutlich für viele Lerntypen (auch wenn die "Lerntypen"-Hypothese laut Henning Beck schon länger überholt ist, siehe Henning Beck: "Das neue Lernen heißt Verstehen", Berlin 2022, Seite 49) und die meisten Lerngegenstände. In meinem Fall ist es Statistik, die ich nun als erwachsener Mensch mit ersten grauen Haaren endlich wirklich verstehen will.
Ein sehr interessantes und nützliches Instrument aus der statistischen Trickkiste ist die lineare Regressionsanalyse. Dieses Instrument anzuwenden ist verhältnismäßig einfach - insbesondere im 21. Jahrhundert mit der Hilfe spezialisierter Computersoftware. Sie zu verstehen ist schon ein Hauch von anspruchsvoller und verlangt ein gewisses Verständnis mathematischer Miniminierungsprobleme und partieller Ableitungen. Ich nähere mich dem Thema über den Weg, es einfach auszuprobieren - auch wenn ich noch nicht so ganz verstanden habe, was ich tue.
Nachdem ich mir schon letztes Jahr ein kleines PHP-Programm geschrieben hatte, das von der OpenData-Website des Landes Schleswig-Holstein alle Messungen der Badegewässertemperaturen zieht und pro Jahr den Durchschnitt errechnet, habe ich diese Jahresdurchschnitte nun genommen und mit der freien Statistik-Programmiersprache R (Ja, die hat wirklich nur den Buchstaben "R" als Namen.) eine lineare Regression und dazu ein Schaubild gemacht. Ihr seht im folgenden den R-Code, danach das Schaubild und danach Kennzahlen, die helfen, einzuschätzen, wie treffend die Regression ist.
Vorher aber noch ein paar grundsätzliche und stark vereinfachende Erklärungen dazu, was bei einer linearen Regresionsanalyse überhaupt passiert, für Statistik-Neulinge:
Die Idee einer linearen Regression ist es, eine Menge von Daten durch eine einfache Gerade zu beschreiben. Diese Gerade soll in einem Koordinatensystem so liegen, dass sie der Verteilung der Daten, die für echte Messungen stehen, so ähnlich wie möglich ist. Mit Hilfe einer solchen ähnlichen Gerade kann man dann die Daten kompakt beschreiben aber damit schon etwas mehr aussagen als mit ein-Wert-Maßen wie Mittelwert, Median oder Standardabweichung. Darüber hinaus kann man mit einer Regressionsgeraden mehr oder weniger treffsicher schätzen, wie noch nicht tatsächlich gemessene Daten ausfallen würden. Die gerade und ihre Geradengleichung werden auch das "Modell" genannt.
So etwas habe ich mit den jährlichen Durschnittstemperaturen des Wassers an den offiziellen Badestellen in Schleswig-Holstein gemacht. In dem folgenden R-Code seht ihr in der mit "data" beginnenden Zeile die Durchschnitts-Wassertemperaturen aus den Jahren 2011 bis 2023. In der mit "time" beginnenden Zeile werden in einer Kurzschreibweise die Jahreszahlen selbst aufgelistet. In den folgenden wenigen Zeilen erstellt R dann automatisch eine lineare Regressionsanalyse, gibt eine zahlenmäßige Übersicht über das Ergebnis und eine Grafik aus.
data <- c(17.2, 17.2, 17.9, 18.6, 17.0, 18.3, 18.1, 19.7, 18.2, 17.9, 18.3, 18.7, 18.3)
time <- c(2011:2023)
summary(lm(data~time))
plot(
main = "Badegewässer-Temperatur 2011 bis 2023",
x = time, y = data,
xlab = "Jahre", ylab="Temperatur in Grad Celsius",
pch=20, col="blue"
)
abline(lm(data~time, family="binomial"), col="blue")
abline(h = mean(data), lty=2)
Der obige R-Code gibt die folgende Grafik aus:
Die Grafik der Regressionsanalyse zeigt die Durchschnittstemperatur an allen Schleswig-Holsteinischen Badestellen pro Jahr als Punkt. Die gestrichelte Linie zeigt den Durchschnitt über alle Jahre, der bei etwas über 18 Grad Celsius liegt. Die blaue Regressionsgerade zeigt eine steigende Tendenz der Datenpunkte. Dies weist darauf hin, dass die Temperaturschwankungen nicht zufällig sind, sondern tatsächlich einem Trend zu höheren Temperaturen folgen. Allerdings sieht man mit bloßem Auge, dass die Datenpunkte sehr weit um die Regressionsgerade streuen. Ähnlich wie bei einem Einzelwert-Maß wie dem Durchschnitt ist deshalb fraglich, wie gut diese Gerade - obwohl sie rechnerisch völlig richtig ist - die Datenpunkte beschreibt.
Zu Regressionsanalysen gibt es einige Kennzahlen, die zeigen, wie gut das Modell zu den echten Daten passt. Solche Kennzahlen gibt R praktischerweise aus:
Die richtige Deutung von Kennzahlen einer Regresionsanalyse (und anderen statistischen Größen) ist zwar kein Hexenwerk, keine "Rocket Science", aber auch nicht ganz trivial. Nach meinem bisherigen Kenntnisstand kann man aufgrund des F-Wertes von knapp über 4 und dem R-Quadrat-Wert von etwas über 2 sagen, dass dieses Regressionsmodell schwach aussagekräftig ist. Es spricht dafür, dass es einen nicht bloß zufälligen Anstieg der Wassertemperatur seit 2011 gegeben hat. Ich beziehe mich bei dieser Deutung auf die Erklärungen von Patrick Planing in seinem Youtube-Video unter https://www.youtube.com/watch?v=RgMbiROPozY.
Eine solche von mir nebenbei hemdsärmlige erstellte Untersuchung sollte natürlich nicht für bare Münze genommen werden. Meiner Begeisterung für Statistik steht ein Mangel an Erfahrung in professioneller Anwendung gegenüber und ich bin bisher auch nicht in die wissenschaftliche Community eingebunden. Aber meine Ergebnisse decken sich mit Forschungsergebnissen von ganz anderem Kaliber, wie der aktuelle NDR-Bericht "Klimawandel: So steigt die Meerestemperatur in Nord- und Ostsee" unter https://www.ndr.de/nachrichten/ndrdata/Klimawandel-So-stark-erwaermen-sich-Nordsee-und-Ostsee,meerestemperaturen102.html zeigt.
Das heißt dann wohl, dass wir noch mehr tun müssen, wenn wir nicht wollen, dass unsere erfrischenden Meere und Badeseen zu brühwarmen, stinkenden Tümpeln voller seltsamer tropischer Parasiten verkommen. Wenn man bedenkt, dass der Klimawandel nicht unerheblich durch CO2-Ausstausch von Passagierflugzeugen verursacht wird, wäre es eine Lösung, mehr Urlaub an Gewässern unserer Schleswig-Holsteinischen Heimat zu machen und weniger in die Ferne zu fliegen. Ist das nicht witzig? Wir können unsere Gewässer schützen, indem wir sie mehr nutzen.