Slik lages en simulasjonsmodell for fotball
Simulasjonsmodeller er godt egnet for å beregne sannsynlighet for ulike utfall i komplekse sammenhenger. Hovedutfordringen er å modellerer det som skal simuleres.
Noen har spurt hvordan man lager en simulasjonsmodell for ligaer og kvalifiseringer. For at du bedre skal forstå hvordan simulasjonsmodellene våre fungerer, har jeg laget en generell beskrivelse nedenfor. Dette kan også bidra til å forklare hvorfor utviklingen i enkelte tilfeller blir annerledes enn hva man gjerne skulle tro eller ønsket.
Men bare så du er advart – dette er ganske sære greier!
Simuleringsmodell er et redskap som er godt egnet for å beregne sannsynlige utfall av komplekse systemer som består av et svært stort antall av uavhengige enkelthendelser. Hovedutfordringen er å lage en matematisk modell som beskriver disse enkelthendelsene og sammenhengene mellom dem. Jeg foretrekker å lage disse modellene i EXCEL.
For å forklare hvordan en simulasjonsmodell fungerer, tar jeg utgangspunkt i den engelske ligaen Championship, som består av 24 lag og totalt 552 kamper. Dersom man først antar at utfallet av hver enkelt kamp kan være H, U eller B, er det altså 3552 mulige kombinasjoner. Dette er allerede astronomiske tall.
HUB er imidlertid ikke tilstrekkelig for å beskrive utfallet i hver enkelt kamp. Dersom man ønsker å liste opp alle mulige enkeltresultater i hver enkelt kamp («1-1», «2-1», «2-4», etc.), vil man komme til 25 eller mer, avhengig av hvilken liga man ønsker å modellere. «Utfallsrommet» består altså av 25 ulike resultater. Antall mulige kombinasjoner av enkeltresultater blir da 25552. En fullstendig beregning av alle mulige kombinasjoner er selvsagt umulig.
I stedet benytter man en simulasjonsmodell, som fungerer på følgende måte:
Man trekker tilfeldig ut ett resultat for hver av de gjenstående kampene og sammenholder disse med resultatet i de allerede spilt kampene. Ved å sette sammen resultatet i de 552 kampene får man en tabell. Om man gjør denne operasjonen 10.000 ganger, får man altså 10.000 ulike tabeller. Dersom f. eks. Leeds topper 850 av disse tabellene, kan man altså konkludere med at Leeds har 8,5 prosent sannsynlighet for å vinne Championship.
Denne korte forklaringen viser hovedproblemstillingene når man skal lage en simulasjonsmodell:
- Hvert enkelt lags styrketall må fastsettes dynamisk for å fange opp formutvikling
- Definisjon av utfallsrommet i hver enkelt kamp
- Kvalitetssikring på kampnivå
- Antall simuleringer
Utførlig om hver enkelt av disse nedenfor.
Styrketall
Beregningsmodellen må ta høyde for at de enkelte lagene har ulikt ferdighetsnivå og derfor har ulike sannsynligheter for å vinne fremtidige kamper. Dette kommer til uttrykk i lagenes styrketall. Styrketallene kan være statiske eller dynamiske. Bruk av statiske styrketall ville innebære at ferdighetsnivået til hvert enkelt lag ble vurdert og fastsatt ved ligaens start og forble uendret gjennom alle rundene. Langt mer hensiktsmessig er det imidlertid å bestemme et styrketall ved ligaens start (f.eks. basert på et gjennomsnitt av eksperttips), men at dette gradvis blir faset ut og erstattet av et styrketall som blir fastsatt basert på de resultatene som hvert enkelt lag faktisk oppnår.
Man kan benytte offentlig tilgjengelige ratinger som styrketall. Dette er spesielt relevant for landslag, hvor både FIFA og UEFA har egne ratinger. UEFA har også ratinger for klubblag, men disse blir ubrukelige i denne sammenheng ettersom de kun omfatter lag som har deltatt i (kvalifisering til) europa-cupene.
Man kan utarbeide ratinger basert på ELO-prinsippene (samme system som benyttes for rating i blant annet sjakk) eller man kan lage mer tabellbaserte ratinger som kun vektlegger f.eks. de siste ti serierundene men i tillegg vektlegger de siste fem kampene tyngre enn de fem foregående.
Det er altså mange måter å fastsette dynamiske styrketall som tar hensyn til at lagenes spillestyrke kan variere gjennom ligaens varighet.
Uansett må man fastsette lagenes relative styrkeforhold i den enkelte kampen. Det relative styrkeforholdet fastsettes ut fra det absolutte styrkeforholdet til hvert av lagene og hjemmebanefordelen.
Man kan f.eks. bestemme at summen av to lags relative styrkeforhold i hver enkelt kamp skal være 100. Om et svært godt lag spiller på hjemmebane mot et dårlig lag, kan det relative styrkeforholdet f.eks. bli 85 – 15. Om et dårlig lag spiller på hjemmebane mot et svært godt lag, kan det relative styrkeforholdet f.eks. bli 35 – 65.
Utfallsrommet
For det første må yttergrensene for utfallsrommet fastsettes ut fra karakteristiske kjennetegn ved ligaen som skal modelleres. Er det store kvalitetsforskjeller mellom lagene som deltar, må beregningsmodellen ta hensyn til at svært store seire. F.eks. er det ikke umulig at Spania på hjemmebane slår Gibraltar med 15 mål i en EM-kvalifiseringskamp. Modellen må ta høyde for at slike resultat kan oppstå. I Championship har de deltakende lagene langt mer homogent ferdighetsnivå og derfor defineres yttergrensene for utfallsrommet langt snevrere.
Utfallsrommet er imidlertid ikke bare en opplisting av alle mulige resultater for hver enkelt kamp, men må også definere sannsynlighetsfordelingen mellom de enkelte mulige resultatene. F.eks. må resultatet «2-1» trekkes ut langt hyppigere enn «0-5», selv om begge disse er innenfor yttergrensene av utfallsrommet. Utfallsrommet må altså defineres individuelt for den enkelte kampen basert på de to lagenes relative styrketall.
Kvalitetssikring av modellen på kampnivå
Det er svært viktig å kvalitetssikre beregningsmodellen på kampnivå. Allerede før modelleringen starter, bør man ha en god oppfatning av:
- Hva er «riktig» fordeling av H-U-B i en kamp hvor et av de sterkeste lagene spiller på hjemmebane mot et av de svakeste (f.eks. 75% – 20% – 5%)?
- Med hvor mange mål vinner i gjennomsnitt det sterkeste laget i slike kamper (f.eks. 3,0)?
- Hva er «riktig» fordeling av H-U-B i en kamp hvor et av de sterkeste lagene spiller på bortebane mot et av de svakeste (f.eks. 20% – 20% – 60%)?
- Med hvor mange mål vinner i gjennomsnitt det sterkeste laget i slike kamper (f.eks. 1,5)?
- Hva er «riktig» fordeling av H-U-B i en kamp hvor to jevngode lag møtes (f.eks. 50% – 20% – 30%)?
- Med hvor mange mål vinner i gjennomsnitt hjemmelaget i slike kamper (f.eks. 1,2)?
Tallene som er angitt i parentes over er verdier jeg vurderer å beskrive Championship ganske godt. I andre ligaer vil målverdiene være annerledes.
Denne kvalitetssikringen omfatter både beregningsprinsippene for styrketall (absolutte og relative) og definisjonen av utfallsrommet. Denne delen av prosessen er svært tidkrevende. Kun dersom man legger mye arbeid i denne delen av modelleringen, vil man få et verktøy som kan beskrive sannsynlighetsfordelingene på en god måte. En modell som fungerer godt i én liga, vil ikke direkte kunne benyttes i en annen liga. F.eks. vil ikke en beregningsmodell som er utviklet for Tippeligaen direkte kunne overføres til Premier League.
Antall simuleringer
Det er lett å la seg blende av et stort antall simuleringer. Det er absolutt ikke slik at 10.000 simuleringer gir et dobbelt så godt resultat som 5.000 simuleringer. Når man passerer et visst punkt er det lite å hente ved å øke antallet ytterligere. Vi sier gjerne at grensenytten er avtagende og etter hvert blir nærmest null.
Nødvendig antall simuleringer er svært avhengig av hvilken liga eller kvalifisering man simulerer.
Desto større antall simuleringer man gjennomføre, desto flere spektakulært usannsynlige utfall vil man oppdage. Dette kan selvsagt gi grunnlag for interessante nyhetssaker, men hovedsammenhengene blir godt beskrevet med et lavere antall simuleringer.
Særegenheter ved simulering av kvalifisering for EM og VM
Kvalifisering for EM og VM har svært spesielle kjennetegn som gjør det spesielt interessant å analysere ved hjelp av en simulasjonsmodell. Vi lager ikke egne simulasjonsmeller for Nations League, for dette er nå en integrert del av kvalifiseringen til EM og VM.
Kvalifiseringen består altså av flere trinn. Eksempel pågående kvalifisering for VM 2026:
- Sette opp en vanlig tabell for hver gruppe i NL
- Identifisere hvilke 8 lag som tar seg videre til Seedingnivå 1 basert på plassering i NL
- Beregne oppdatert FIFA rangering og identifisere
- hvilke 4 lag som tar de siste fire ledige plassene på seedingnivå 1
- hvilke 12 lag som går til seedingnivå 2
- hvilke 12 lag som går til seedingnivå 3, etc
- Foreta en trekning av de 12 ordninære kvalifikasjonsgruppene
- Simulere utfall av kvalifikasjonskampene
- Identifisere de 16 lagene som skal gå til playoff (12 gruppetoere og 4 gruppevinnere fra NL)
- Simulere utfall av playoff
Dette må man så gjøre et stort antall ganger, 20.000 ganger eller mer. Da har man et verktøy som kan analysere hele kvalifiseringen og presentere sannsynlighet for ulike utfall.