Wie genau sind Fußball KI Vorhersagen – Trefferquoten, Benchmarks und Forschungsdaten

Wie genau sind fußball ki vorhersagen — das ist die Frage, die jeder stellen sollte, bevor er einen Prognose-Dienst nutzt. Nicht weil KI-Vorhersagen grundsätzlich unzuverlässig wären, sondern weil der Markt für diese Dienste mit Genauigkeitszahlen geflutet ist, die ohne Kontext bedeutungslos sind. 85 Prozent Trefferquote — auf welchem Markt? In welchem Zeitraum? Mit welcher Methodik?

Die Antwort auf die Frage nach der Prognosegenauigkeit liegt in der Forschungsliteratur, nicht in Marketing-Unterlagen. Und die Forschung zeichnet ein klares, wenn auch differenziertes Bild: KI-Modelle schlagen menschliche Experten strukturell, aber sie eliminieren den Zufall im Fußball nicht. Die realistischen Genauigkeitsbereiche sind deutlich niedriger als Werbebotschaften suggerieren — und gleichzeitig höher als Skeptiker eingestehen.

Dieser Artikel erklärt, welche Messgrößen für Prognosegenauigkeit relevant sind, was aktuelle Forschungsergebnisse konkret zeigen und welcher Unterschied zwischen Pre-Match- und Post-Match-Prognosen besteht. Alles mit Zahlen, Quellen und methodischem Kontext — keine Behauptungen ohne Basis.

Genauigkeitsmetriken: RPS, Accuracy und Brier Score

Bevor man Prognosegenauigkeit vergleicht, muss man verstehen, was gemessen wird. Es gibt mehrere gängige Metriken — und sie messen unterschiedliche Aspekte der Qualität.

Accuracy: die einfachste, aber unvollständigste Metrik

Accuracy (Trefferquote) ist die bekannteste Kennzahl: Wie oft lag das Modell richtig? Bei drei möglichen Ausgängen (Heimsieg, Unentschieden, Auswärtssieg) wäre ein zufälliges Modell mit 33 Prozent korrekt. Ein Modell, das immer den wahrscheinlichsten Ausgang tippt (meistens Heimsieg), kann schon durch diese simple Strategie 45 bis 50 Prozent erreichen — ohne jede Prognosequalität. Accuracy allein sagt daher wenig darüber aus, ob ein Modell tatsächlich gute Wahrscheinlichkeiten berechnet oder nur die häufigsten Ausgänge favorisiert.

Ranked Probability Score (RPS)

Der RPS ist die methodisch überlegenere Metrik für Fußballprognosen. Er bewertet nicht nur, ob das Modell den richtigen Ausgang gewählt hat, sondern auch, wie gut die gesamte Wahrscheinlichkeitsverteilung kalibriert ist. Ein Modell, das für einen Heimsieg 90 Prozent ansetzt, aber Unentschieden und Auswärtssieg kaum berücksichtigt und dann trotzdem richtig liegt, wird vom RPS schlechter bewertet als ein Modell mit ausgewogenerer Verteilung. Niedrigere RPS-Werte sind besser. In der Forschung wird RPS als Standard für den Vergleich von Fußballprognosemodellen verwendet.

Brier Score für binäre Aufgaben

Der Brier Score funktioniert ähnlich wie der RPS, ist aber speziell für binäre Aufgaben geeignet: Wird das Heimteam gewinnen oder nicht? Je näher der Brier Score an 0, desto besser die Kalibrierung. Er wird insbesondere in Studien verwendet, die bestimmte Märkte isoliert betrachten — zum Beispiel nur den Heimsieg-Markt oder den Über-2,5-Tore-Markt. Für den direkten Vergleich von Modellen über mehrere Ligen und Spieltypen ist der RPS geeigneter.

Warum Accuracy trotzdem kommuniziert wird

Accuracy ist einfach zu verstehen und einfach zu kommunizieren. «75 Prozent Trefferquote» klingt besser als «RPS von 0,18». Das erklärt, warum Prognose-Dienste Accuracy nutzen und RPS vermeiden — nicht weil Accuracy besser misst, sondern weil sie besser klingt. Wer Prognose-Dienste vergleichen will, sollte nach RPS oder Brier-Score-Angaben suchen oder zumindest nach transparenten Methodik-Beschreibungen, die Accuracy in den richtigen Kontext setzen.

Benchmarking: Was ist ein guter Referenzpunkt?

Ein sinnvoller Referenzpunkt für jede Prognose-Evaluation ist die sogenannte Naive Baseline: Das Modell tippt immer den historisch häufigsten Ausgang — in der Bundesliga typischerweise den Heimsieg. Dieses «Naive Modell» erreicht in der Bundesliga etwa 45 bis 48 Prozent Accuracy, ohne jede Berechnung. Jedes ernstzunehmende Prognosemodell muss diesen Schwellenwert deutlich übertreffen, um einen methodischen Mehrwert nachzuweisen. Dienste, die keine solche Vergleichsbasis liefern, erlauben keine seriöse Bewertung ihrer Qualität.

Forschungsergebnisse: was die Zahlen wirklich zeigen

Die relevanten Benchmarks kommen aus peer-reviewter Forschung, nicht aus Pressemitteilungen. Hier sind die wichtigsten aktuellen Ergebnisse.

Success Score Framework: 73,3 Prozent bei binären Aufgaben

Ein besonders leistungsfähiger Ansatz ist das «Success Score Framework», das 12 verschiedene Fußball-Parameter kombiniert — darunter xG, Heim-/Auswärtsstatistiken, aktuelle Formkurven und historische Head-to-Head-Daten. In einer Studie von Research Square (2024) erreicht dieses Modell eine Accuracy von 73,3 Prozent auf der binären Aufgabe «Heimsieg vs. kein Heimsieg» (Win vs. Not Win, rs-7736577). Das ist ein signifikanter Wert — aber nur für diese binäre Fragestellung, nicht für den vollständigen 1X2-Markt. Die methodische Unterscheidung ist entscheidend: 73 Prozent auf «Heimsieg ja/nein» ist nicht dasselbe wie 73 Prozent auf «Heimsieg vs. Unentschieden vs. Auswärtssieg».

Random Forest: bis zu 85 Prozent in kontrollierten Bedingungen

Random-Forest-Algorithmen, die mit detaillierten Event-Daten trainiert wurden, erreichen in Forschungsumgebungen bis zu 85 Prozent Trefferquote auf bestimmten Aufgaben. Das ist der Maximalwert unter idealisierten Bedingungen: vollständige Trainingsdaten, homogene Liga, spezifisch gewählte Prognoseziele. In produktiven Systemen unter realen Bedingungen — unvollständige Informationen, heterogene Gegner, unbekannte Tagesvariablen — sind diese Werte nicht reproduzierbar. Der Abstand zwischen Forschungsergebnis und realer Anwendung ist systematisch und bekannt.

xG-Modelle: konsistente 60 bis 66 Prozent pre-match

Die realistischsten Benchmarks für reale Prognose-Anwendungen liefern xG-basierte Modelle unter Pre-Match-Bedingungen. Mehrere Studien mit Bundesliga-Daten konvergieren auf einen Bereich von 60 bis 66 Prozent Accuracy auf dem vollständigen 1X2-Markt. Das ist der Wert, den ein gut implementierter Algorithmus unter produktiven Bedingungen konsistent halten kann — über eine gesamte Saison und ohne Stichproben-Selektion.

Methodischer Konsens in der Forschung

Was die Forschung übergreifend zeigt: Es gibt keinen Algorithmus, der den Zufallsanteil im Fußball eliminiert. Die Spannweite der dokumentierten Genauigkeitswerte liegt je nach Modell, Liga und Aufgabendefinition zwischen 55 und 75 Prozent — wobei höhere Werte fast immer mit spezialisierteren oder eingeschränkteren Aufgaben verbunden sind. Ein Modell, das bei 1X2-Prognosen auf einer vollständigen Ligasaison konsistent über 68 Prozent liegt, wäre ein wissenschaftlicher Durchbruch — nicht ein normales Produkt-Feature.

Pre-Match vs. Post-Match: unterschiedliche Vorhersagegenauigkeit

Ein oft übersehener Unterschied in Prognose-Diskussionen: Pre-Match- und Post-Match-Prognosen sind methodisch grundverschieden. Post-Match-Genauigkeit ist kein realer Anwendungsfall, sondern ein theoretischer Benchmark.

Post-Match: die Obergrenze des Möglichen

Eine Post-Match-Prognose nutzt alle im Spiel erhobenen Daten — xG beider Teams, Schussqualität, Pressing-Intensität über 90 Minuten — um im Nachhinein zu berechnen, welcher Ausgang wahrscheinlicher war. Das ist eine Art Rückwärtskalibrierung: Wie gut erklärt das Modell den tatsächlichen Spielverlauf? Forcher et al. (Frontiers, 2025) zeigen für 918 Bundesliga-Spiele, dass xG-Modelle post-match 65,6 Prozent Accuracy erreichen und EPV-Modelle 66,1 Prozent (RPS = 0,148 bzw. 0,145). Das sind wichtige Orientierungswerte, aber kein Maßstab für reale Prognosen.

Pre-Match: der reale Anwendungsfall

Pre-Match-Prognosen basieren ausschließlich auf Informationen, die vor Spielbeginn verfügbar sind: historische Leistungsdaten, aktuelle Form, Aufstellungen (nach Veröffentlichung), Heim-/Auswärtsbilanz. Hier zeigt die Forschung einen systematischen Genauigkeitsverlust gegenüber Post-Match: EPV-Modelle erreichen pre-match 58,3 Prozent Accuracy (RPS = 0,194), xG-Modelle 55,6 Prozent (RPS = 0,199) — beide über einer Stichprobe von 918 Bundesliga-Spielen (Forcher et al., 2025). Das ist der Wert, der für die Bewertung realer Prognose-Dienste relevant ist: nicht 65 Prozent post-match, sondern 55 bis 58 Prozent pre-match als realistischer Basiswert.

Der Informationsgewinn durch Aufstellungen

Die Lücke zwischen Pre- und Post-Match-Genauigkeit lässt sich teilweise schließen: durch zeitnahe Integration von Aufstellungsdaten und aktualisierten Verletzungsmeldungen kurz vor Spielbeginn. Modelle, die unmittelbar nach Aufstellungsbekanntgabe aktualisieren, nähern sich methodisch der Post-Match-Qualität an — weil ein erheblicher Teil des Genauigkeitsgewinns in der Post-Match-Analyse aus der Kenntnis des tatsächlichen Spielverlaufs und nicht aus dem Ergebnis selbst stammt. Der erste Schritt zu besseren Pre-Match-Prognosen ist daher das konsequente Einarbeiten der Startelf-Informationen.

Hinweis zum verantwortungsvollen Umgang

KI-Fußballprognosen haben einen echten Informationswert — aber keinen Gewinngarantie-Wert. Selbst die genauesten Modelle liegen bei jedem dritten bis vierten Spiel daneben. Sportwetten in Deutschland sind ausschließlich bei GGL-lizenzierten Anbietern legal. Nutzen Sie Prognosen als Informationshilfe und nicht als Entscheidungsautomatik. Bei problematischem Spielverhalten: BZgA-Hotline 0800 1 37 27 00 (kostenlos, 24h).

Datenquelle: Research Square — «A Success Score Framework for Football Match Prediction» (rs-7736577), 2024. URL: Research Square rs-7736577 (PDF)