Die besten falschen Modelle finden

âAlle Modelle sind falsch, aber manche sind nĂŒtzlich.â So zitiert Gregor Kastner den britischen Statistiker George E. P. Box und fasst damit einen wichtigen Aspekt seiner eigenen Forschung zusammen. Kastner leitet als Professor fĂŒr Statistik an der UniversitĂ€t Klagenfurt das interdisziplinĂ€re Zukunftskolleg âHochdimensionales statistisches Lernen: Neue Methoden fĂŒr Wirtschafts- und Nachhaltigkeitspolitikâ des Wissenschaftsfonds FWF, in dem er mit Ăkonom:innen, Computerwissenschaftler:innen und Nachhaltigkeitsforscher:innen zusammenarbeitet. Das Projekt startete 2019 und umfasst neben seinem Team an der UniversitĂ€t Klagenfurt Forschende an der UniversitĂ€t Salzburg, am Ăsterreichischen Institut fĂŒr Wirtschaftsforschung (WIFO) und an der Technischen UniversitĂ€t Wien.
Dabei geht es darum, die statistischen Modelle, die fĂŒr Vorhersagen in vielen verschiedenen Bereichen der Wirtschaft genutzt werden, grundlegend zu verbessern. Kastner erklĂ€rt das Eingangszitat: âModelle können nie die gesamte Wirklichkeit abbilden. Sie können nur möglichst gut fĂŒr den jeweiligen Anwendungsfall sein und uns damit Vorhersagen und Wahrscheinlichkeiten liefern, die uns helfen, Entscheidungen zu treffen.â
Der Fluch der DimensionalitÀt
Statistische Modelle kann man sich vereinfacht als eine Ansammlung von mathematischen Formeln vorstellen, denen man â wenn sie gut gemacht sind â Daten in Form von Zahlen fĂŒttern kann, und die dann Vorhersagen ĂŒber die Zukunft ausspucken und abschĂ€tzen, wie wahrscheinlich diese zutreffen. Zum Beispiel gibt es Modelle, die unter anderem versuchen vorherzusagen, wie sich das Wirtschaftswachstum eines Landes durch die Ănderung des Leitzinses verĂ€ndern wird. Dabei spielt aber nicht nur der Wert des Leitzinses eine Rolle, sondern auch eine Vielzahl anderer wirtschaftlicher Faktoren, die das Modell, so gut es geht und sinnvoll ist, erfassen muss.
So ein statistisches Modell kann auf viele verschiedene Arten erstellt werden. Es muss mittels Daten aus der echten Welt trainiert und getestet werden. Eine einfache Art, wie man die KomplexitĂ€t eines Modells darstellen kann, ist die Anzahl seiner Parameter. Im obigen Beispiel ist der Einfluss des Leitzinses einer der Parameter, aber es kommen â neben vielen anderen â auch Faktoren wie die Arbeitslosenquote, die ProduktivitĂ€t verschiedener Wirtschaftszweige oder zyklische Ereignisse ins Spiel. Um möglichst korrekte Voraussagen zu machen, braucht ein Modell aber noch viel mehr Parameter. Durch die KomplexitĂ€t der Daten kann ein Modell damit Zehn- bis Hunderttausende Parameter umfassen.
âDas Problem dabei ist der Fluch der DimensionalitĂ€tâ, erklĂ€rt Kastner. âVereinfacht gesagt, entspricht die DimensionalitĂ€t eines Modells der Anzahl der Parameter. Der Fluch dabei ist, dass bei zu vielen Parametern die vorhandenen Daten schnell zu wenig werden, um ein gutes Modell darauf aufzubauen.â Wenn nĂ€mlich zu wenig Daten bei zu vielen Parametern vorhanden sind, tendiert das Modell dazu, fĂ€lschlich einfach die vorhandenen Daten fĂŒr Voraussagen ĂŒbergenau zu reproduzieren. âDas Modell kann dadurch die zugrunde liegenden Trends und ZusammenhĂ€nge nicht darstellen und produziert verzerrte, ungenaue oder ĂŒbergenaue Aussagen ĂŒber die Zukunftâ, fĂŒgt Kastner hinzu.
Gregor Kastner ist Professor fĂŒr Statistik und Vorstand des Instituts fĂŒr Statistik an der UniversitĂ€t Klagenfurt.
Mehr zum Projekt: https://zk35.org/

Modelle fĂŒr Finanzwirtschaft und Standortdaten
Diesen Fluch der DimensionalitĂ€t zu bannen, ist ein zentraler Fokus von Kastners Projekt. âWir haben makroökonomische Daten und KursvolatilitĂ€t in der Finanzwirtschaft modelliert, uns Satellitendaten zur landwirtschaftlichen FlĂ€chennutzung und zu deren Zusammenhang mit EU-Förderungen angesehen und untersucht, wie man mit der anonymisierten AktivitĂ€t von Mobiltelefonen Personen- und Verkehrsdichten modellieren und vorhersagen kannâ, umreiĂt Kastner einige der untersuchten Anwendungsfelder hochdimensionaler statistischer Modelle.
Dabei ging es den Forschenden aber weniger darum, konkrete Empfehlungen fĂŒr politische Entscheidungen zu produzieren, sondern die zugrunde liegenden Modelle robuster zu machen. âWir nutzen verschiedene AnsĂ€tze, um die Aussagekraft der Modelle zu verbessern, insbesondere Methoden aus der sogenannten Bayes-Statistik, was erst in den letzten Jahrzehnten durch die enorm gesteigerte Leistung von Computern möglich wurdeâ, sagt Kastner. âDamit möchten wir eine stabile Grundlage fĂŒr statistische Modelle bieten, die in vielen Bereichen Anwendung finden können â wie zum Beispiel auch beim gegenwĂ€rtig viel diskutierten maschinellen Lernen, das oft noch mit Fehlern kĂ€mpft.â

Blick zurĂŒck und in die Zukunft
Mitte 2024 geht das Forschungsprojekt zu Ende und Kastner blickt mit Freude auf die gelungene Zusammenarbeit zurĂŒck: âEs galt einige Herausforderungen zu meistern, insbesondere die Kommunikation zwischen den verschiedenen Fachdisziplinen. Manche Begriffe bedeuten in zwei Fachbereichen einfach verschiedene Dinge. Insgesamt war das Projekt jedoch ein groĂer Erfolg. Wir haben nicht nur die Wissenschaft vorangebracht, sondern konnten durch die Fördermittel auch die Arbeit zahlreicher Forschender finanzieren, um auf ihrem Gebiet voranzukommen.â Die meisten der Jungwissenschaftler:innen, die das Projekt ursprĂŒnglich eingereicht hatten, fanden weitere dauerhafte Anstellungen in der Wissenschaft â zwei davon sogar eine Professur.
âDie Förderung des FWF hat dabei eine entscheidende Rolle gespielt. Die Zukunft wird zeigen, welche der Resultate nachhaltig Anwendung finden werdenâ, so Kastner. âMich selbst wird die Suche nach der Wahrheit in Modellen auf jeden Fall weiter begleiten.â
Zur Person
Gregor Kastner ist Professor fĂŒr Statistik und Vorstand des Instituts fĂŒr Statistik an der UniversitĂ€t Klagenfurt. Nach Studien in Technischer Mathematik, Computerwissenschaften und Sport und einer Zeit als Schullehrer fand er 2010 zur Bayes-Statistik und promovierte dazu 2014. Seit 2020 hat er die Professur an der UniversitĂ€t Klagenfurt inne und freut sich, seiner Leidenschaft fĂŒr Statistik, insbesondere fĂŒr die bayesianische Modellierung, nachgehen und andere Forschende in ihrer Arbeit anleiten und unterstĂŒtzen zu können. Das Projekt Hochdimensionales statistisches Lernen: Neue Methoden fĂŒr Wirtschafts- und Nachhaltigkeitspolitik (2019â2024) wurde vom Wissenschaftsfonds FWF im Rahmen des Programms âZukunftskollegsâ zur Förderung innovativer und interdisziplinĂ€rer Kooperation von Postdoc-Teams mit rund zwei Millionen Euro gefördert.
Publikationen
Feldkircher M., Gruber L., Huber F., Kastner G.: Sophisticated and small versus simple and sizeable: When does it pay off to introduce drifting coefficients in Bayesian vector autoregressions? Journal of Forecasting 2024
Vana L., Visconti E., Nenzi L., Cadonna A., Kastner G.: Bayesian Machine Learning meets Formal Methods: An application to spatio-temporal data. arXiv pre-print 2024
Gruber L., Kastner G.: Forecasting macroeconomic data with Bayesian VARs: Sparse or dense? It depends! arXiv pre-print 2023
Mozdzen A., Cremaschi A., Cadonna A. et al: Bayesian modeling and clustering for spatio-temporal areal data: An application to Italian unemployment. Spatial Statistics, Vol. 52, 2022