Wer will, kann sich jedes WM-Spiel bis hin zum Finale von KI voraussagen lassen. Aber wie treffsicher ist Künstliche Intelligenz? Das interessiert auch zwei Forschungsprojekte.
Mit Beginn der WM sah die Mehrheit der KI-Modelle Spanien als kommenden Weltmeister. Auch Frankreich wurde oft prognostiziert. Die aktuelle Weltmeisterschaft ist nicht nur ein Wettstreit der Mannschaften. Sie ist auch ein Wettstreit der Künstlichen Intelligenzen. Und genau das interessiert zwei Forschungsgruppen.
Weltmeisterschaft der KI-Chatbots
Deutschlands ersten WM-Sieg gegen Curaçao sagten alle KI Chatbots richtig voraus. Das ist nun wirklich nicht erstaunlich. Die KI Software Grok von AI hat aber auch die drei ersten Spiele der WM vorhersagen können – mit exaktem Ergebnis. Zufall – oder KI-Können? Genau das wollen Forschende des Instituts für Künstliche Intelligenz im Management an der Münchner LMU herausfinden.
Der Doktorand Jonas Schweisthal hat parallel zur Fußball-WM zusammen mit Kollegen aus Köln und Paderborn eine KI-Weltmeisterschaft entwickelt, bei der die wichtigsten Chatbots Spiel- und Turnierprognosen abgeben. Und dabei Punkte sammeln können.
Fünf Punkte gibt es für das exakte Ergebnis, zwei Punkte für die richtige Tordifferenz, einen Punkt für die richtige Tendenz – also Sieg, Unentschieden oder Niederlage. Den Live-Stand der KI-Weltmeisterschaft kann jeder im Netz abrufen.
Gleiche Daten – unterschiedliche Ergebnisse der KI
An der KI-Weltmeisterschaft sind die Chatbots von Open AI, X, Anthropic, Qwen, Google, Deep Seek und Mistral beteiligt. Die Modelle nutzen sämtliche Informationen, die sie im World Wide Web finden: historische und aktuelle Berichte, Weltranglistenplätze, Formkurven und Expertentipps. Daraus berechnen sie Prozentwerte für Sieg, Niederlage oder Unentschieden. Alle KIs nutzen dabei annähernd dieselben Daten – und kommen doch zu unterschiedlichen Ergebnissen. Warum?
Jonas Schweisthal begründet die Unterschiede mit dem “Reasoning” der Modelle: Die Chatbots versuchen, den Gedankengang der Menschen zu simulieren. Und jedes Modell würde die gesammelten Daten unterschiedlich gewichten. Dem einen seien zum Beispiel verletzte Spieler sehr wichtig, dem anderen weniger wichtig.
“Denk”-Unterschiede der KI für die Forschung interessant
Genau diese Unterschiede im “Denken” der KI interessieren den Forscher, weil sie Hinweise darauf geben können, welche Informationen Modelle nutzen – und ob Trainingsdaten, Internet-Meinungen oder sprachliche und regionale Verzerrungen eine Rolle spielen. Wie etwa bei dem französischen Sprachmodell Mistral, das Frankreichs Nationalkader besonders gut bewertet.
Das WM-Szenario sei durchaus auch auf andere Bereiche übertragbar, wie etwa Entscheidungssituationen in der Wirtschaft, so Stefan Feuerriegel, der Münchner Leiter des Forschungsprojekts.
Zweites Projekt erforscht Gewinnchancen mittels Kaderstärke
Ein zweites Forschungsprojekt der TU München in Zusammenarbeit mit den Universitäten in Wien und Hangzhou fokussiert sich auf die Kader der Nationalmannschaften. Die Analyse der “Squad League Networks” berechnet die Gewinnwahrscheinlichkeiten mit zwei Hauptfragen: In welcher Liga und bei welchen Mannschaften spielen die Mitglieder des Nationalteams? Vereinfacht gesagt hat das Team, das die meisten Spieler aus Top-Vereinen hat – wie zum Beispiel Liverpool oder Paris Saint-Germain – die besten Chancen, so der Münchner Sportwissenschaftler Martin Lames.
Chatbots würden den Mainstream wiedergeben – also die Mehrheitsmeinung der gesammelten Informationen. Die “Squad League Networks” dagegen kämen durch die Analyse der Kader auf objektivere Ergebnisse. Die Forschenden vergleichen nicht nur die aktuellen Kader; sie verbinden die Analyse auch mit Daten der letzten großen EM- und WM-Turniere. Spanien ist bei dieser Modellrechnung nicht gesetzt, dafür aber Frankreich, Deutschland, England und die Niederlande.
Viele Tools, ähnliche Trefferquote
Auf dem kommerziellen Markt sind auch spezielle Fußball-KI-Tools wie Opta oder Footbot, die das Turnier bis zu 50.000-mal durchrechnen, mit allen wahrscheinlichen wie unwahrscheinlichen Gegebenheiten. Sie berücksichtigen unter anderem die Teamstärke, den Wettmarkt, das Ranking, das Wetter, die Spielorte. Die Trefferquote der Tools, egal ob Chatbot oder spezialisierte KI, liegt maximal um die 60 Prozent.
KI – besser als menschliche Fußball-Prognosen?
Ist die KI damit zumindest besser als die menschliche Intuition? Dafür gibt es keinen wissenschaftlichen Beleg. In einem aktuellen Experiment der Badischen Neuesten Nachrichten tritt ChatGPT gegen 275 menschliche Tippgeber an. Und landet nach einer Woche WM immerhin auf Platz 22.
Fußball bleibt unberechenbar
Sportwissenschaftler Martin Lames hat in einer früheren Studie untersucht, welche große Rolle der Zufall beim Fußball spielt. 40 Prozent der Tore sind Glück: weil der Ball vom Pfosten ins Tor springt oder zufällig abprallt.
Alle Fußballfans können also aufatmen: Die KI kann zwar voraussagen, aber weissagen kann sie nicht. Auch der Chatbot Grok lag nach seinen ersten Supertipps kräftig daneben. Schön wäre es, wenn Martin Lames mit seiner KI-Prognose richtig liegt: Hier kommt Deutschland mindestens ins Halbfinale – also: wahrscheinlich.

