KI-Algorithmen im Fußball: Wie Maschinen Prognosen berechnen

Welche Daten fließen in eine KI-Vorhersage ein?

Manche Anbieter versprechen 75 % Genauigkeit bei KI-gestützten Fußball-Prognosen. Was sie dabei nicht erwähnen: Diese Zahl stammt meistens aus kontrollierten Laborstudien, die mit sorgfältig bereinigten historischen Daten arbeiten. In der Praxis, also bei echten Spielen unter echten Bedingungen, erreichen KI-Modelle nach aktuellem Forschungsstand 60–68 % Genauigkeit bei 1X2-Prognosen — ein Vorsprung von immerhin 8 bis 16 Prozentpunkten gegenüber menschlichen Experten, die auf 52–55 % kommen. Kein Wunder, dass das Interesse an algorithmischen Vorhersagen wächst. Aber es lohnt sich, genauer hinzuschauen, was diese Modelle eigentlich rechnen.

Eine KI-Vorhersage ist kein Orakel, sondern ein Wahrscheinlichkeitsrechner. Was hineingeht, bestimmt, was herauskommt — und was hineingeht, ist erheblich komplexer als eine Tabelle mit Toren und Punkten.

Die Eingabedaten: mehr als nur Ergebnisse

Moderne Prognosemodelle arbeiten mit mehreren Datenkategorien gleichzeitig. Positionsdaten erfassen die Bewegung jedes Spielers auf dem Feld — nicht als Momentaufnahme, sondern als kontinuierlicher Datenstrom. Ereignisdaten dokumentieren jeden Pass, jeden Schuss, jeden Zweikampf, jede Balleroberung. Dazu kommen Kontextdaten: Spielplan-Dichte, Reisewege der Mannschaften, Wetterbedingungen, Schiedsrichterhistorie, Head-to-Head-Statistiken, aktuelle Formkurven.

Das Ergebnis ist ein hochdimensionaler Datensatz, der weit über das hinausgeht, was ein menschlicher Analyst in vertretbarer Zeit verarbeiten kann. Genau darin liegt der strukturelle Vorteil der Maschine: nicht in Intuition, sondern in Kapazität. Daten statt Bauchgefühl — das ist der Kerngedanke hinter jedem ernsthaften KI-Vorhersagesystem.

Dabei verarbeiten moderne Systeme nicht alle Daten gleich gewichtet. Ein Modell, das den letzten Ligasieg vor fünf Jahren genauso stark berücksichtigt wie die Form der letzten drei Spieltage, produziert schlechtere Prognosen als eines, das zeitlich gewichtet — also jüngere Daten stärker bewertet. Diese Kalibrierung ist keine Kleinigkeit; sie trennt brauchbare Modelle von akademischen Fingerübungen.

Hinzu kommt eine Unterscheidung, die in der öffentlichen Debatte oft untergeht: Pre-Match und Post-Match. Ein Modell, das erst nach dem Spiel auf xG-Daten aus diesem Spiel zurückgreift, erreicht naturgemäß höhere Genauigkeitswerte — aber diese Information stand vor dem Anpfiff nicht zur Verfügung. Für praktische Prognosen zählt ausschließlich das Pre-Match-Modell. Dieses Grundprinzip klingt selbstverständlich, wird aber in der Branche regelmäßig ignoriert oder verschleiert.

Von Torstatistik zu xG: die Evolution der Fußballdaten

Lange Zeit war Fußballstatistik identisch mit Torstatistik. Tore, Torschüsse, Ballbesitz — mehr brauchte der durchschnittliche Journalist nicht, mehr wollte der durchschnittliche Fan nicht wissen. Das änderte sich mit dem Aufkommen der Expected-Goals-Metrik, kurz xG, die heute in keiner seriösen Spielanalyse mehr fehlt.

Leander Forcher, Data Scientist bei TSG 1899 Hoffenheim und Forscher am Karlsruher Institut für Technologie, bringt die Entwicklung auf den Punkt: «Früher zählten alle nur Tore und Assists, aber im modernen Profifußball geht es um viel mehr.» Die Verschiebung ist fundamental: weg von Ergebnisstatistik, hin zu Prozessstatistik.

Was xG misst — und was nicht

Expected Goals ist eine Wahrscheinlichkeitsschätzung. Jede Torchance bekommt einen Wert zwischen 0 und 1 zugewiesen, der ausdrückt, wie oft eine solche Chance unter vergleichbaren Bedingungen historisch zu einem Tor führt. Ein Kopfball aus 15 Metern nach einer Flanke hat einen anderen xG-Wert als ein Direktschuss aus der Drehung auf 8 Metern. Die akkumulierten xG-Werte eines Spiels zeigen, welche Mannschaft die besseren Chancen hatte — unabhängig davon, wie das Endresultat aussieht.

Der analytische Wert liegt in der Prognosekraft: xG korreliert langfristig stark mit Tabellenplätzen und ist damit ein besserer Prädiktor für zukünftige Leistung als Tore selbst. Eine Mannschaft, die konstant hohe xG-Werte produziert, aber ungewöhnlich wenige Tore erzielt, hat statistisch gute Chancen auf eine Korrektur nach oben. Umgekehrt sollte man misstrauisch sein, wenn ein Team viele Tore schießt, aber kaum xG-Werte vorweist: Glück lässt sich nicht dauerhaft reproduzieren.

Die Grenzen von xG sind ebenso real wie seine Stärken. Das Modell misst nicht, wie gut der Torwart ist, der die Chance hält. Es misst nicht den Druck, unter dem ein Schuss abgegeben wird — zumindest in der Basisversion nicht. Es berücksichtigt keine taktischen Formationen, keine Spielstärke des Gegners und keine Fatigue-Effekte. Wer xG als einzige Metrik verwendet, verliert genau diese Informationsdimension.

Die Erweiterung: von xG zu event-reichen Modellen

Neuere Forschung zeigt, dass Modelle, die über xG hinausgehen und zusätzliche Ereignisdaten einbeziehen — etwa Pressing-Intensität, Ball-Carrying-Daten, Passsequenzen — die Prognosegenauigkeit systematisch verbessern. Analysen auf StatsBomb-Bundesliga-Daten bestätigen: Event-reiche Modelle übertreffen Basis-xG-Modelle bei der Vorhersage von Spielausgängen, besonders wenn das Modell auf die Spielstärke des Gegners konditioniert wird.

Das klingt technisch, hat aber eine praktische Implikation: Nicht jeder xG-Wert ist gleich viel wert. Ein xG von 0,8 aus einer Standard-Abschlussposition nach ruhigem Aufbau ist analytisch belastbarer als ein xG von 0,8 unter extremem Pressing nach einem Ballverlust der gegnerischen Defensive. Moderne Modelle machen genau diese Unterscheidung — und genau deshalb sind sie besser als die einfache Torstatistik von vor zwanzig Jahren.

EPV vs. xG: Welches Modell ist genauer?

Expected Possession Value, kurz EPV, ist das jüngere Geschwister von xG — und in bestimmten Kontexten das genauere. Während xG den Wert einer Torchance misst, bewertet EPV den Wert jedes einzelnen Ballbesitzes, jeder Aktion, die eine Mannschaft mit dem Ball vornimmt. EPV fragt nicht «Wie gut war dieser Schuss?», sondern «Wie viel hat diese Ballberührung zur Wahrscheinlichkeit beigetragen, irgendwann in diesem Angriff ein Tor zu erzielen?»

Das klingt nach einer Verfeinerung ohne dramatischen Unterschied. Die Zahlen zeigen etwas anderes.

Die Bundesliga-Studie: 918 Spiele, drei Saisons

Eine Forschungsgruppe um Leander Forcher von TSG Hoffenheim analysierte für ihre 2025 in Frontiers in Sports and Active Living veröffentlichte Studie insgesamt 918 Bundesliga-Spiele aus drei Saisons (2022/23 bis 2024/25) und verglich dabei EPV- und xG-basierte Prognosemodelle systematisch. Das Ergebnis ist bemerkenswert eindeutig: Das EPV-Modell erreichte im Pre-Match-Szenario eine Genauigkeit von 58,3 % (RPS = 0,194), während das xG-Modell auf 55,6 % kam (RPS = 0,199).

Ein Unterschied von knapp drei Prozentpunkten klingt überschaubar. Im Kontext von Fußballprognosen ist er das nicht — schon deshalb, weil die Gesamtspanne zwischen einem naiven Basismodell und einem High-End-KI-System in der Praxis selten mehr als 10–12 Prozentpunkte beträgt. Drei Punkte mehr Genauigkeit entsprechen also einem substanziellen Verbesserungssprung.

Post-Match ist kein Pre-Match

Noch aufschlussreicher wird das Bild, wenn man Post-Match-Werte hinzuzieht: Das xG-Modell, das auf Daten aus dem Spiel selbst zurückgreifen kann, erreicht 65,6 % Genauigkeit — gemessen über 306 Spiele der Saison 2024/25. Das ist der Wert, den viele Plattformen in ihrer Werbung kommunizieren, ohne darauf hinzuweisen, dass er unter für die Praxis unmöglichen Bedingungen ermittelt wurde. Pre-Match, also vor dem Anpfiff, ist EPV mit 58,3 % das bessere Instrument.

Das bedeutet nicht, dass xG nutzlos ist. Es bedeutet, dass die Wahl des Modells vom Verwendungszweck abhängt. Für die Echtzeit-Analyse eines laufenden Spiels ist xG gut; für die Prognose vor dem Anpfiff auf Basis akkumulierter Leistungsdaten hat EPV derzeit die Nase vorn. Ein ernsthaftes Prognosemodell sollte beide Metriken kombinieren, statt sich auf eine zu verlassen.

Timo Gross, Head of Football Intelligence bei TSG Hoffenheim, formuliert das Prinzip auf der offiziellen Website des Klubs klar: «Es ist wichtig, dass wir uns nicht auf einen einzelnen Wert fixieren, sondern Modelle wie EPV und xGoals in Verbindung miteinander betrachten.» Ein Satz, der wie eine Selbstverständlichkeit klingt — in der Praxis der meisten Prognose-Plattformen ist er es nicht.

Algorithmen im Überblick: Random Forest, CatBoost, XGBoost

Hinter dem Begriff «KI-Vorhersage» verbergen sich sehr unterschiedliche mathematische Architekturen. Die drei am häufigsten für Fußballprognosen eingesetzten Verfahren — Random Forest, CatBoost und XGBoost — unterscheiden sich in Funktionsweise, Stärken und typischen Einsatzgebieten erheblich.

Random Forest: der Klassiker mit Schwarmintelligenz

Random Forest ist ein Ensemble-Verfahren: Es trainiert nicht einen einzigen Entscheidungsbaum, sondern Hunderte oder Tausende davon und kombiniert deren Vorhersagen durch Mehrheitsentscheid. Das Prinzip der Schwarmintelligenz macht das Verfahren robust gegenüber Überanpassung — einem chronischen Problem bei komplexen Modellen, die auf zu wenig Daten trainiert werden.

In kontrollierten Forschungsstudien erreicht Random Forest Genauigkeiten von bis zu 85 % bei der Vorhersage von Fußballergebnissen. Diese Zahl verdient eine Einschränkung: Sie entsteht unter Idealbedingungen mit sauber aufbereiteten historischen Daten und sorgfältig gewählten Feature-Sets. Im Live-Betrieb, mit verrauschten Echtzeit-Daten und unbekannten Variablen wie kurzfristigen Aufstellungsänderungen, sinkt die Genauigkeit erheblich. Dennoch ist Random Forest nach wie vor ein Standardverfahren für Fußballprognosen — stabil, interpretierbar und gut kalibriert.

CatBoost: Gradient Boosting für kategoriale Daten

CatBoost, entwickelt von Yandex, gehört zur Familie der Gradient-Boosting-Algorithmen. Der entscheidende Unterschied zum generischen XGBoost: CatBoost ist speziell für die Verarbeitung kategorialer Variablen optimiert — also genau jener Datentypen, die in Fußballanalysen omnipräsent sind. Mannschaftsnamen, Spielerpositionen, Stadion, Schiedsrichter — all das sind kategoriale Merkmale, die andere Algorithmen erst aufwendig encodieren müssen. CatBoost macht das nativ, schneller und mit weniger Informationsverlust.

In der Praxis produziert CatBoost besonders in spezifischen Segmenten starke Ergebnisse. Auf Matches, die nach dem Kelly-Index als hochgradig vorhersagbar eingestuft werden, kommt das Modell laut der Studie auf arXiv (2211.15734) auf Genauigkeiten von rund 70 %. Auf weniger vorhersagbaren Matches fällt dieser Wert auf 55–60 %. Der Schlüssel liegt also nicht im Algorithmus allein, sondern in der Selektion: Wer nur die Spiele prognostiziert, für die ausreichend Signaldichte vorhanden ist, kommt systematisch auf bessere Ergebnisse.

XGBoost: flexibel, schnell, weit verbreitet

XGBoost ist der am breitesten eingesetzte Gradient-Boosting-Algorithmus im Bereich maschinelles Lernen und hat sich auch im Fußball etabliert. Seine Stärke liegt in der Flexibilität: Es verarbeitet numerische und kategoriale Daten, lässt sich auf nahezu jeden Datensatz anwenden und liefert interpretierbare Feature-Importances — also eine Rangliste, welche Eingabevariablen wie stark zur Vorhersage beitragen. Das macht es zum bevorzugten Werkzeug für explorative Analysen und zur Identifikation relevanter Prädiktoren.

Studien auf Bundesliga-Daten zeigen: Die Hinzunahme von Pressing-Events, Ball-Carrying-Daten und Passsequenz-Metriken verbessert die Vorhersagegenauigkeit gegenüber xG-only-Modellen konsistent. XGBoost fungiert dabei als das verbindende Lernverfahren, das diese Informationen zu einer kohärenten Wahrscheinlichkeitsschätzung integriert.

Was kein Algorithmus kann

Alle drei Verfahren teilen eine fundamentale Einschränkung: Sie können nur lernen, was in den Trainingsdaten vorhanden ist. Kein Algorithmus weiß, dass der Stammstürmer gestern seine Stiefel falsch schnürte — oder dass der Kapitän nach einem familiären Konflikt nicht in der richtigen Verfassung ist. Strukturelle Information lässt sich quantifizieren; menschliche Faktoren lassen sich allenfalls approximieren. Die Kombination aus statistischer Modellierung und sportjournalistischem Kontext bleibt deshalb leistungsfähiger als jede der beiden Methoden allein.

Erwähnenswert ist zudem der Success Score Framework: Ein Modell mit 12 kombinierten Parametern erreicht in der Win-vs.-Not-Win-Aufgabe laut einer Untersuchung auf Research Square (rs-7736577, 2024) eine Genauigkeit von 73,3 % — ein deutlich höherer Wert als einfache xG-Basismodelle, erkauft durch eine erheblich komplexere Modellarchitektur und höhere Datenanforderungen.

Kelly Index: Vorhersagen nach Vorhersagbarkeit klassifizieren

Eines der konzeptuell interessantesten Werkzeuge der aktuellen Fußballanalyse ist der Kelly Index — nicht zu verwechseln mit dem Kelly-Kriterium aus der Wetttheorie. Als Klassifizierungsmetrik unterteilt er Fußballspiele nach ihrer prinzipiellen Vorhersagbarkeit in zwei Typen.

Type-1-Spiele sind Partien mit klaren strukturellen Asymmetrien: Tabellenführer gegen Abstiegskandidat, starkes Heimteam gegen schwache Auswärtsmannschaft, dominante Formkurve auf einer Seite. Hier produziert das Modell starke Signale. Type-2-Spiele sind die Duelle, bei denen beide Mannschaften ähnliche Stärke aufweisen oder zu viele externe Faktoren die Ausgangslage verwischen — Rivalen auf Augenhöhe, Spieltage mit ungewöhnlicher Rotation, Pokalspiele mit B-Elf.

Was die Zahlen sagen

Die Studie auf arXiv (2211.15734) zeigt: Ein CatBoost-Modell, das nach Kelly Index auf Type-1-Spiele beschränkt wird, erreicht rund 70 % Genauigkeit. Werden Type-2-Spiele einbezogen, fällt die Genauigkeit auf 55–60 %. Der Mechanismus ist simpel — und hat weitreichende Konsequenzen: Wer versucht, jedes Spiel gleich gut zu prognostizieren, wird durchschnittlich schlechter abschneiden als jemand, der klug selektiert.

Die praktische Implikation ist nicht, bestimmte Spiele zu ignorieren, sondern das eigene Vertrauen in eine Prognose der nachweisbaren Signalstärke anzupassen. Ein Prognosemodell, das Konfidenzintervalle ausweist — also angibt, wie sicher es sich selbst ist — ist informativer als eines, das jede Vorhersage mit derselben Sicherheitsbehauptung liefert.

Kelly Index in der Praxis

Für den Nutzer von KI-Prognosen bedeutet das: Nicht alle Vorhersagen sind gleich verlässlich, selbst wenn sie von derselben Plattform stammen. Eine Prognose für ein Spitzenspiel zwischen Bayern München und Bayer Leverkusen — zwei Mannschaften mit ähnlicher Stärke, hohem öffentlichem Interesse und zahlreichen externen Faktoren — ist strukturell weniger belastbar als eine Prognose für ein Spiel, bei dem eine deutlich stärkere Mannschaft gegen ein abstiegsgefährdetes Team antritt.

Seriöse Plattformen kommunizieren diese Unterschiede explizit. Wer alle Prognosen mit vermeintlich identischer Sicherheit liefert, stellt die tatsächlichen Grenzen seiner Modelle nicht dar. Das Kelly-Index-Konzept liefert dafür ein nützliches konzeptuelles Raster: Nicht jedes Spiel ist gleich gut vorherzusagen — und wer das akzeptiert, denkt realistischer über Prognosen nach als derjenige, der jedes Ergebnis für berechenbar hält.

Sportec Solutions: die offizielle Datenbasis der Bundesliga

Daten sind das Fundament jeder Prognose — und für die Bundesliga gibt es eine klare offizielle Quelle: Sportec Solutions, eine hundertprozentige Tochtergesellschaft der DFL Deutsche Fußball Liga.

Sportec erfasst und verwaltet sämtliche offiziellen Leistungsdaten für die 1. und 2. Bundesliga. Was das in der Praxis bedeutet, ist beachtlich: 25 Datenpunkte pro Sekunde pro Spieler auf dem Feld — also Positionsdaten mit einer Auflösung, die menschliche Wahrnehmung deutlich übersteigt. Hinzu kommen Ereignisdaten für jeden Pass, jeden Schuss, jede Aktion, jeden Zweikampf. Laut dem offiziellen Bericht des Büros für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB Bundestag, Themenkurzprofil Nr. 72, Juni 2024) ist Sportec Solutions die messtechnische Grundlage für die gesamte Bundesliga-Dateninfrastruktur.

Wer auf die Daten zugreift

Sportec versorgt zunächst die Klubs selbst: Trainer, Analysten und Scouting-Abteilungen arbeiten mit diesen Datensätzen täglich. Darüber hinaus stehen ausgewählte Daten Medienpartnern und Forschern zur Verfügung. Seit der Saison 2022/23 wurden zusätzlich DFB-Pokal-Spiele in die Erfassung integriert, seit 2023/24 außerdem die 3. Liga und die Google Pixel Frauen-Bundesliga — die Datenbasis wächst kontinuierlich.

Für externe Prognose-Plattformen ist entscheidend, auf welche Daten sie tatsächlich Zugriff haben. Wer direkt mit Sportec-Daten arbeitet, operiert auf einem anderen Qualitätsniveau als Plattformen, die aggregierte Sekundärdaten aus öffentlichen Quellen verarbeiten. Diese Unterschiede in der Datenqualität erklären einen erheblichen Teil der Varianz in der Prognosegenauigkeit zwischen verschiedenen Anbietern — auch wenn das selten offen kommuniziert wird.

Für den Nutzer ist diese Frage schwer transparent zu beurteilen, da Datenlizenzen kaum öffentlich kommuniziert werden. Ein gutes Indiz: Plattformen, die ihre Datenquellen nicht nennen, haben in der Regel einen Grund dafür.

Grenzen der KI: Verletzungen, Spieltag-Rotation, Wetter

Selbst das ausgereifteste KI-Modell prognostiziert keine Fußballspiele mit vollständiger Zuverlässigkeit — und das liegt nicht an algorithmischen Schwächen, sondern an der Natur des Sports selbst. Simone Ehrenberg-Silies, Wissenschaftliche Mitarbeiterin beim Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag, formuliert es in ihrem offiziellen Bericht präzise: «Wenngleich die Vermessung des Fußballs suggeriert, dass dieser vorhersehbarer würde, ist anzunehmen, dass auch im Zeitalter von KI und Big Data der Zufall im Fußball weiterhin eine entscheidende Rolle für das Spielergebnis innehaben wird.»

Diese Aussage kommt nicht von einem Kritiker der Sportanalyse, sondern aus dem offiziellen Analysedokument des Deutschen Bundestags. Sie ist kein Eingeständnis, sondern eine nüchterne Positionsbestimmung.

Verletzungen und Last-Minute-Ausfälle

KI-Modelle arbeiten mit historischen Leistungsdaten und aktuellen Teamstatistiken. Was sie nicht zuverlässig verarbeiten können: ein Aufstellungs-Tweet 45 Minuten vor Anpfiff, der den Ausfall des Stammspielers auf einer Schlüsselposition meldet. Diese Information ist hochrelevant — Bundesliga-Analysen zeigen konsistent, dass der Ausfall eines Spielers in einer xG-relevanten Position die erwartete Torbilanz eines Teams für dieses Spiel signifikant beeinflusst. Modelle, die Aufstellungsdaten systematisch integrieren und in Echtzeit aktualisieren, sind hier im Vorteil. Aber selbst dann: Wenn die Information erst 30 Minuten vor Spielbeginn verfügbar ist, sind Quoten längst gesetzt und Prognosen veröffentlicht.

Englische Wochen und Rotation

Europäische Klubs spielen in englischen Wochen — also drei Spielen in sieben Tagen — mit erheblicher Kaderrotation. Ein Modell, das nicht unterscheidet, ob Bayern München mit dem Stammelf oder mit der halben Reserve antritt, unterschätzt den Einfluss dieser Variable dramatisch. Kluge Modelle gewichten Spielerbeiträge individuell und summieren die erwartete Spielstärke der wahrscheinlichen Aufstellung. Primitive Modelle addieren Teampunkte und nennen das Analyse.

Stadion, Wetter, Schiedsrichter

Heimvorteil ist in der Statistik real, aber kontextabhängig. Wetter beeinflusst den Spielstil: Starker Regen bevorzugt physische Mannschaften und konterkariert technische Kombinationssysteme. Schiedsrichterhistorie ist messbar: Bestimmte Unparteiische geben statistisch mehr Elfmeter, andere greifen bei Zweikämpfen früher ein. Alle diese Faktoren sind quantifizierbar — aber nicht alle Modelle quantifizieren sie.

Das Fazit ist nicht, KI-Prognosen zu misstrauen, sondern sie in ihrer realen Leistungsfähigkeit zu verstehen: als strukturierte Entscheidungsunterstützung mit bekannten Grenzen, nicht als Garantiesystem. Sportwetten bleiben Glücksspiel — Prognosen sind ein Instrument für informiertere Entscheidungen, keine Versicherung gegen Verlust.

TSG Hoffenheim: ein Bundesliga-Praxisbeispiel

Kein anderer Bundesliga-Klub steht so stark für den Einzug von Datenwissenschaft in den deutschen Profifußball wie TSG 1899 Hoffenheim. Der Verein aus dem Kraichgau war ein früher Pionier — und ist bis heute eines der wenigen deutschen Teams, die EPV und xG nicht nur kennen, sondern aktiv in der Spielvorbereitung, Spielanalyse und im Scouting einsetzen.

Timo Gross, Head of Football Intelligence bei TSG Hoffenheim, beschreibt den praktischen Nutzen der xG-Metrik im Spielbetrieb auf der offiziellen Website des Klubs: «xGoals gibt uns viel mehr Informationen über den Spielverlauf als die Schussstatistik. Wir bekommen sofort ein Gefühl dafür, wie gut die Chance wirklich war.» Das ist kein marketinggerechtes Statement, sondern eine funktionale Beschreibung, warum xG im Profibereich die reine Schussstatistik ersetzt hat.

EPV im Match-Alltag

TSG geht über xG hinaus und integriert Expected Possession Value in die Analyse. Das Modell bewertet nicht nur Torchancen, sondern jede Ballberührung im Kontext des Spielverlaufs. Für eine Mannschaft wie Hoffenheim, die regelmäßig taktisch komplexe Gegner wie Bayern oder Leverkusen empfängt, liefert EPV Erkenntnisse, die die reine Schussstatistik verschweigt: Welche Phasen des Ballbesitzes waren wirklich progressiv? Welche sahen progressiv aus, erzeugten aber statistisch keinen Druckaufbau?

Diese Erkenntnisse fließen in den Scouting-Prozess. TSG bewertet Transferkandidaten nach individuellen xGoals-Werten — eine Methode, die weit über den deutschen Profifußball hinaus verbreitet ist, dort aber besonders systematisch angewendet wird. Laut TAB-Bundestag-Bericht 2024 sind data experts in der Bundesliga noch vergleichsweise selten — TSG Hoffenheim ist die Ausnahme, die die Regel bestätigt.

Was das für externe Prognosen bedeutet

Wenn selbst Bundesliga-Klubs wie Hoffenheim mit EPV- und xG-Kombinationen arbeiten und dabei festhalten, dass kein einzelner Wert die volle Wahrheit sagt, sollte das als Maßstab für externe Prognosemodelle gelten. Plattformen, die mit einem einzigen Score arbeiten und keine Unsicherheitsbereiche ausweisen, sind analytisch weniger ausgefeilt als das, was Bundesliga-Profis selbst verwenden.

Für den informierten Nutzer ist das eine nützliche Referenz: Ein gutes Prognosemodell kommuniziert, welche Metriken es verwendet, wo seine Datenbasis beginnt und endet, und wann es sich unsicher ist. Wenn Hoffenheims eigener Analyst betont, Modelle immer in Verbindung miteinander zu betrachten, spricht das eine klare Sprache über die Komplexität valider Fußballprognosen — und über die Vorsicht, die beim Umgang mit vereinfachten Prognose-Scores angebracht ist.

Hinweis: Fußball-Vorhersagen, auch auf Basis wissenschaftlicher Methoden, ersetzen keine eigenverantwortliche Entscheidung. Sportwetten sind Glücksspiel. Spielen Sie ausschließlich bei Anbietern mit gültiger GGL-Lizenz nach GlüStV 2021 und setzen Sie nur Beträge ein, deren Verlust Sie verkraften können.