
Fußball prognosen mit statistiken — das ist kein Nischenthema für Datenwissenschaftler. Es ist die Grundlage jeder ernsthaften Fußballanalyse, ob für Prognose-Dienste, Medienberichterstattung oder die eigene Spielbeurteilung. Wer weiß, welche Metriken tatsächlich aussagekräftig sind und welche nur vertraute Zahlen ohne Prognosekraft liefern, liest Fußball anders — und versteht besser, warum Algorithmen manchmal recht haben und manchmal nicht.
Das Problem mit klassischen Fußballstatistiken ist nicht, dass sie falsch sind. Tore, Torschüsse, Ballbesitz — das sind reale Zahlen. Das Problem ist, dass sie oft keine belastbare Verbindung zum nächsten Spielausgang haben. Ein Team kann drei Spiele in Folge gewonnen haben und dabei deutlich schlechtere xG-Werte gezeigt haben als der Gegner. Ohne die richtigen Metriken sieht das nach Stärke aus. Mit xG sieht es nach einem Team aus, das gerade Glück hat — und das statistisch bald korrigiert werden wird.
Dieser Artikel gibt einen strukturierten Überblick über die wichtigsten Metriken für Fußballprognosen, erklärt den Wert und die Grenzen von H2H-Daten und Formkurven und zeigt, woher die Zahlen kommen, auf denen seriöse Algorithmen aufbauen. Keine Buzzwords ohne Inhalt.
Wichtigste Metriken: xG, xGA, PPDA und Pressing
Moderne Fußballanalyse operiert mit einer Handvoll Kernmetriken, die zusammen ein wesentlich vollständigeres Bild der Spielstärke liefern als klassische Statistiken. Die wichtigsten davon im Überblick.
xG — Expected Goals
xG ist die wichtigste Einzelmetrik im modernen Fußball-Prognosemodell. Sie quantifiziert die Qualität jeder Torchance durch eine Wahrscheinlichkeitszahl zwischen 0 und 1, berechnet aus Schussdistanz, -winkel, Vorarbeit und weiteren Kontextfaktoren. Ein Team, das dauerhaft hohe xG-Werte produziert, zeigt strukturelle Offensivstärke — unabhängig davon, wie viele dieser Chancen tatsächlich als Tore enden. xG ist ein Maß für die Qualität des Spielprozesses, nicht nur des Ergebnisses.
xGA — Expected Goals Against
xGA ist das defensive Pendant zu xG: Wie viele Tore hätte ein Team auf Basis der zugelassenen Chancenqualität kassieren müssen? Ein Team mit niedrigem xGA-Wert hat eine strukturell starke Defensive, die Chancen des Gegners klein hält. Die Differenz xG minus xGA — die Expected-Goals-Differenz — ist einer der besten verfügbaren Indikatoren für die übergeordnete Spielstärke. Teams mit dauerhaft positiver xG-Differenz sind strukturell stärker, als ihre aktuelle Tabellensituation mitunter vermuten lässt.
PPDA — Passes Allowed Per Defensive Action
PPDA misst die Pressing-Intensität einer Mannschaft: Wie viele gegnerische Pässe lässt sie im gegnerischen Drittel zu, bevor sie aktiv eingreift? Ein niedriger PPDA-Wert (zum Beispiel 6) bedeutet aggressives Pressing — der Gegner bekommt wenig Raum für Spielaufbau. Ein hoher PPDA-Wert (zum Beispiel 12) deutet auf ein passiveres Verteidigungsverhalten hin. PPDA ist besonders nützlich, um taktische Anpassungen zu erkennen, die in Torabschluss-Statistiken noch nicht sichtbar sind.
Event-Rich-Daten als nächste Stufe
Algorithmen auf Basis detaillierter Ereignisdaten — Pressure Events, Carrying Data, Ballverluste unter Druck — übertreffen einfache xG-Modelle in der Prognosegenauigkeit messbar. StatsBomb-Modelle, die mit solchen event-reichen Daten auf Bundesliga-Spielen trainiert wurden, zeigen in Forschungstests systematisch bessere Ergebnisse als Basismodelle ohne diese Zusatzinformation (TrainingGround.guru / StatsBomb, 2025). Der Informationsgewinn entsteht daraus, dass Pressing-Events und Ballprogressionen den Spielverlauf besser abbilden als reine Schussstatistiken.
H2H und Formkurve: Wert und Grenzen
H2H (Head-to-Head) und Formkurve sind die bekanntesten Statistiktypen in öffentlichen Prognose-Präsentationen. Beide haben einen Platz in der Analyse — aber einen kleineren, als ihre Präsenz in Vorhersage-Portalen suggeriert.
H2H-Daten: wann sie relevant sind
Historische Direktvergleiche zwischen zwei Teams können aussagekräftig sein, wenn die Rahmenbedingungen stabil geblieben sind: dieselben Trainer, ähnliche Kader, vergleichbare Liga-Position. In diesen Fällen reflektiert H2H möglicherweise echte taktische Muster — zum Beispiel, dass Team A gegen Team B strukturell schlecht dasteht, weil der Spielstil von Team B die Stärken von Team A neutralisiert. Solche Muster sind real und für Prognosen relevant.
In der Praxis sind H2H-Daten jedoch häufig methodisch wertlos: Wenn sich Kader, Trainer oder Spielsystem eines der Teams substanziell verändert haben, sagen Ergebnisse von vor drei Jahren wenig über das heutige Kräfteverhältnis. Noch problematischer: H2H-Stichproben sind oft zu klein für statistische Belastbarkeit. Fünf Direktvergleiche reichen nicht, um strukturelle Schlüsse zu ziehen. Gute Prognosemodelle verwenden H2H allenfalls als schwachen Zusatzfaktor, nicht als primären Input.
Formkurve: kurzfristig aussagekräftig, langfristig irreführend
Die Formkurve der letzten fünf Spiele ist für Prognosen relevanter als H2H — aber nur, wenn man sie richtig liest. Eine Serie von fünf Siegen kann bedeuten: Das Team ist tatsächlich stärker als zuvor. Oder: Das Team hatte zuletzt einen günstigen Spielplan gegen schwächere Gegner. Oder: Es hat deutlich mehr Chancen zugelassen als erzielt, aber der Torhüter hat überragend gehalten. Ohne xG-Kontext ist die Formkurve ein stumpfes Instrument. Mit xG-Kontext ist sie ein nützlicher, aber nie entscheidender Faktor.
Gewichtung im Prognosemodell
Moderne Prognosemodelle kombinieren Formkurve, H2H, xG-Differenz, Heim-/Auswärtsbilanz und weitere Faktoren mit unterschiedlichen Gewichten — und passen diese Gewichte dynamisch an, je nachdem, wie viele Datenpunkte für ein Team verfügbar sind. Am Saisonanfang, wenn nur wenige aktuelle Spiele vorliegen, steigt das Gewicht historischer Saisondaten. Im Saisonverlauf, wenn aktuelle Leistungsdaten akkumuliert sind, sinkt es. Das ist eine Stärke gut implementierter Algorithmen gegenüber der menschlichen Intuition, die Formkurven systematisch übergewichtet.
Datenquellen: Wo kommen die Zahlen her?
Hinter jeder Fußballstatistik steht eine Datenerhebung. Wer weiß, woher die Zahlen kommen, versteht auch, welche Vertrauenswürdigkeit und Aktualität sie haben.
Sportec Solutions: offizielle Bundesliga-Daten
Für die Bundesliga ist die Datenlage außergewöhnlich gut. Die DFL-Tochtergesellschaft Sportec Solutions erfasst die 1. und 2. Bundesliga vollständig mit professionellen Tracking-Systemen — 25 Messpunkte pro Sekunde und Spieler, dazu vollständige Ereignisdaten für jeden Pass, Schuss und Zweikampf. Ab der Saison 2022/23 wurde der DFB-Pokal integriert, ab 2023/24 die 3. Liga und die Google Pixel Frauen-Bundesliga (TAB Bundestag Nr.72, 2024). Diese Datendichte ist in Europa nur in wenigen Ligen vergleichbar und ist der Hauptgrund dafür, dass Bundesliga-Prognosemodelle methodisch besonders verlässlich arbeiten können.
StatsBomb und Opta: internationale Event-Datenbanken
Für internationale Ligen und Wettbewerbe sind StatsBomb und Opta die wichtigsten kommerziellen Datenprovider. Sie liefern standardisierte Event-Daten — Pässe, Schüsse, Pressings, Positionsdaten — für die meisten europäischen Top-Ligen. Die Qualität variiert je nach Liga: Top-5-Ligen sind gut abgedeckt, kleinere Ligen oft nur mit Basisdaten. Prognosemodelle, die auf StatsBomb- oder Opta-Daten aufbauen, können für Champions-League-Begegnungen oder Europa-League-Spiele solide Inputs liefern — sofern beide Teams aus gut dokumentierten Ligen stammen.
Öffentliche vs. proprietäre Daten
Nicht alle Daten, auf denen kommerzielle Prognose-Dienste aufbauen, sind öffentlich zugänglich. Viele Anbieter nutzen proprietäre Datensätze, die über die öffentlich verfügbaren Statistiken hinausgehen: interne Spielertracking-Daten, nicht-öffentliche Verletzungsmeldungen oder spezifische taktische Metriken. Das macht einen direkten Vergleich zwischen Diensten methodisch schwierig. Als Nutzer ist die wichtigste Frage nicht, welcher Dienst die meisten Zahlen zeigt, sondern welcher transparent macht, auf welcher Datenbasis seine Prognosen entstehen.
Aktualität als unterschätzter Qualitätsfaktor
Selbst die beste Datenquelle verliert an Wert, wenn sie nicht zeitnah aktualisiert wird. Für Tagesprognosen ist der Datenzeitschnitt entscheidend: Wurde die letzte Verletzungsmeldung eingearbeitet? Sind die xG-Werte aus dem Spiel von vorgestern schon im Modell? Ein Prognose-Dienst, der mit zwei Tage alten Daten arbeitet, hat für Spiele am selben Abend einen strukturellen Informationsnachteil gegenüber Diensten mit stündlichen Updates. Das ist kein Detailproblem — es ist der Unterschied zwischen einer Prognose, die den aktuellen Kaderstatus widerspiegelt, und einer, die es nicht tut.
Hinweis zum verantwortungsvollen Umgang
Fußball-Statistiken und die daraus abgeleiteten Prognosen sind Informationswerkzeuge — kein Ergebnisversprechen. Auch die präziseste Metrik eliminiert den Zufallsanteil im Fußball nicht. Sportwetten in Deutschland sind ausschließlich bei GGL-lizenzierten Anbietern legal. Setzen Sie Verlustlimits und spielen Sie mit Beträgen, deren Verlust Sie verantworten können. Bei problematischem Spielverhalten: BZgA-Hotline 0800 1 37 27 00 (kostenlos, 24h).
Datenquelle: TrainingGround.guru / StatsBomb — «Predicting Football Match Outcomes Using Event Data and Machine Learning Algorithms», 2025. URL: TrainingGround.guru PDF