De grenzen van prognose: over statistiek, AI en passende IC-zorg
Auteur(s):
Harm-Jan de Grooth
Afdeling Intensive Care Centrum, UMC Utrecht, Universiteit Utrecht, Utrecht
Correspondentie:
h.j.s. de grooth - h.j.s.degrooth@umcutrecht.nl
De grenzen van prognose: over statistiek, AI en passende IC-zorg
De belangrijkste vraag voor ons vak
‘Voor welke patiënten heeft een intensive care opname toegevoegde waarde?’ Deze zorgevaluatievraag van de eerste NVIC kennisagenda werd niet alleen door leden, maar ook door overige belanghebbenden het hoogst geprioriteerd.[1] De stampvolle zaal bij het Lagerhuisdebat Passende Zorg tijdens de Intensivistendagen onderstreept nog eens hoe breed dit onderwerp leeft.
In discussies rond deze vraag klinkt impliciet (en soms expliciet) de hoop dat de oplossing gevonden kan worden in epidemiologie of datawetenschap. De tekst van de kennisagenda spreekt over prognostische modellen (‘vooralsnog onvoldoende discriminerend’) en het ontwikkelen van zulke modellen is één van de drie kernaanbevelingen van de NVIC Werkgroep Passende Zorg.[1,2]
Toch moeten we rekening houden met een aantal fundamentele beperkingen van statistische prognoses. Een goed begrip van de basics van individuele prognostiek is belangrijk voor de dagelijkse klinische praktijk, maar ook voor de verwachtingen rondom de Leidraad Passende Zorg die momenteel in ontwikkeling is.
Een zeldzame consensus: postanoxisch coma als case-study
Voor één patiëntencategorie hebben we al breed gedragen overeenstemming over prognose en gepaste IC-behandeling: patiënten met postanoxisch coma na een hartstilstand.[3] Het is de moeite waard om expliciet te maken waardoor deze consensus mogelijk is.
Ten eerste hebben de doorslaggevende diagnostische testen bij postanoxisch coma een uitzonderlijk sterke pathofysiologische grondslag: zonder functionerende cortex of thalamo-corticale integratie is herstel van bewustzijn nauwelijks voorstelbaar. Epidemiologisch bewijs geeft vooral ondersteuning en bevestiging. Bovendien werkt anoxische hersenschade hetzelfde in Utrecht als in Ulaanbaatar, in 1995 als in 2025. Dit maakt bevindingen uit andere landen en tijden relevant voor onze praktijk. En bij bepaalde bevindingen ligt de kans op betekenisvol neurologisch herstel onder de 1%, ook in landen waar zeer langdurig wordt doorbehandeld. Met zulke kleine kansen verschuift het epistemologische en morele kader. De onzekerheid die altijd inherent is aan prognose (niemand kan écht in de toekomst kijken) wordt voor praktische besluitvorming minder relevant.
De combinatie van robuust pathofysiologisch mechanisme, processtationariteit en extreem lage kansen verklaart de brede consensus – en maakt tegelijk duidelijk waarom postanoxisch coma een uitzondering zal blijven.
De chaotische realiteit
Bij veel aandoeningen op de IC ontbreekt een enkelvoudig pathofysiologisch mechanisme dat rechtstreeks leidt tot een onvermijdelijke uitkomst. Zelfs bij ernstige schade en verwachte hoge sterfte blijft er vaak een biologisch plausibel pad naar herstel bestaan. De moeilijkste keuzes rondom passende zorg worden daarom bepaald door combinaties van problemen: sepsis bij zeer hoge leeftijd, pneumonie bij moeilijk behandelbare maligniteit, trauma bij uitgesproken frailty. Juist hier leeft de hoop dat big data en machine learning helderheid kunnen bieden door het opgraven van steeds complexere combinaties van kenmerken. Dat is ijdele hoop. De wetten van de rekenkunde en combinatoriek stellen harde grenzen aan individuele voorspellingen.
Hoe geavanceerd een model ook is, onder de motorkap voorspelt het nooit voor een individu, maar altijd op basis van een historische groep. Neem een patiënte op zeer hoge leeftijd, recent nog vitaal, nu met sepsis en bijkomend nierfalen, een uitgesproken behandelwens en toegewijde mantelzorgers. Zij kan op verschillende manieren bij andere (historische) patiënten worden gegroepeerd om haar overlevingskans of verwachte kwaliteit van leven te voorspellen. Maar elk van die verschillende referentieklassen leidt tot een andere prognose.
Het idee dat een statistisch model of AI-agent de keuze tussen verschillende mogelijke referentieklassen objectief kan oplossen of omzeilen is, helaas, fictie: de weging van modelcoëfficiënten weerspiegelt onvermijdelijk aannames en toevalligheden in de gebruikte data.[4] Hoe specifieker de combinatie van kenmerken, hoe kleiner de relevante referentieklasse en hoe instabieler de kansschatting. Meer complexiteit vergroot de schijnbare voorspelkracht op groepsniveau, maar maakt individuele voorspellingen juist instabieler (twee verschillende hele goede modellen kunnen voor dezelfde patiënt bijvoorbeeld 10% en 40% overlevingskans voorspellen, zonder dat we uit de data kunnen achterhalen welke voorspelling ‘beter’ is).[4,5]
In een tijd van spectaculaire AI-doorbraken is deze boodschap lastig te verkopen. Maar anders dan bij taalmodellen, waar meer data en rekenkracht evident tot betere prestaties leiden, stuit individuele prognose op wiskundig fundamentele beperkingen. Dat is inmiddels overduidelijk aangetoond, zowel op theoretische gronden als in toegepast onderzoek.[4–7] Het zogeheten referentieklasseprobleem raakt zelfs aan de kern van wat een kans überhaupt betekent: een patiënt ‘heeft’ geen kans – althans niet één die objectief te meten is, zelfs niet met extreem grote databronnen. Die conclusie (objectieve kansen voor individuen bestaan niet) is gemeengoed binnen de kanstheorie en verdient ook in de klinische praktijk expliciete erkenning.[8,9]
Hoe verhoudt zich dat tot postanoxisch coma? Ook dan combineren we kenmerken om tot een prognose te komen. Het verschil is dat die kenmerken geen verfijnd risicoprofiel opleveren, maar de diagnose van een onomkeerbare biologische eindtoestand die onafhankelijk is van andere factoren zoals comorbiditeit, frailty, sociaal vangnet of motivatie. Daardoor zijn prognostische uitspraken hier uitzonderlijk stabiel en extern valide.
Resultaten uit het verleden...
We leveren in de praktijk ook nu al veel maatwerk op basis van prognose. Een onbedoelde maar onoverkomelijke bijwerking daarvan is het verhullen van de slechtste prognoses in de data. In onderzoek naar Nederlandse IC-patiënten met hematologische maligniteiten was de 1-jaarsoverleving van patiënten die wekenlang beademd werden vergelijkbaar met die van patiënten die één dag beademd werden.[10] De meest waarschijnlijke verklaring is effectieve selectie van patiënten die in aanmerking blijven komen voor langdurige ondersteuning. Een vergelijkbaar patroon zien we bij 90-plussers op Nederlandse IC's: hun 1-jaarsmortaliteit is ca. 55%.[11] Dat is op geen enkele manier een objectieve afspiegeling van de prognose van een doorsnee 90-plusser die zo ziek is dat hij IC-zorg nodig heeft (de achtergrondmortaliteit van alle Nederlandse 90-plussers is al ca. 20% per jaar).
Onze huidige inschattingen en behandelkeuzes voorkomen dus dat de allerslechtste prognoses objectief in de data zichtbaar worden, terwijl onze verwachtingen tegelijk het handelen sturen dat uitkomsten mede bepaalt (met het risico op self-fulfilling prophecies).[12,13] We hebben daardoor geen neutraal observatiepunt om extreem slechte prognoses te identificeren. Wat wij in de data kunnen zien is geen getrouwe afbeelding van de werkelijke uitkomsten die mogelijk zijn, maar een door historische behandelkeuzes vervormde projectie.
Terug naar realistische verwachtingen
Op basis van klinisch oordeel onderscheiden we als zorgverleners vaak wel goed tussen hoog- en laagrisicopatiënten, maar schieten we tekort in calibratie: voor sommige aandoeningen zijn we overmatig pessimistisch of juist optimistisch, en tussen zorgverleners bestaan grote verschillen in prognose voor dezelfde patiënt.[14–17] Bovendien hebben we in de acute zorgketen vaak geen goed zicht op langetermijnuitkomsten van bepaalde aandoeningen of patiëntgroepen. We kunnen dus wel wat hulp gebruiken.
Wat data en statistiek dan wél kunnen bieden zijn goed onderbouwde prognostische oriëntatiepunten: kansschattingen die herhaalbare, toetsbare en uitlegbare beginpunten bieden voor verdere prognostische oordeelsvorming. Dat, en niet het idee van ‘objectieve’ kansen, is waarom voorspelmodellen een rol kunnen hebben in medische besluitvorming. Als oriëntatiepunt en hulpmiddel tegen bias en willekeur, niet als vermeende waarheid.[8]
De rol van de zorgverlener als inhoudsexpert blijft dan dus onverminderd belangrijk. Onze oudere patiënte met sepsis en een acute nierfunctiestoornis heeft volgens een toekomstig model misschien 24% kans om na een jaar nog te leven. Dat is niet ‘haar’ kans, maar de gemiddelde historische uitkomst van mensen met een vergelijkbare combinatie van kenmerken. Welke kenmerken? Dat zou het model ons moeten kunnen vertellen. Het is vervolgens aan het klinisch oordeel van zorgverlener als inhoudsexpert om te bepalen of die referentieklasse in dit geval relevant is, of dat andere factoren mee moeten wegen om de schatting naar boven of beneden bij te stellen.
In zo’n toekomstbeeld zullen we moeten accepteren dat al te specifieke voorspellingen – wanneer bijvoorbeeld 100 factoren worden meegewogen – vooral schijnprecisie opleveren wanneer het gaat om individuele patiënten (het referentieklasseprobleem) en dat de voorspelde kans niet voortkomt uit een neutraal observatiepunt, maar al is gevormd door eerdere behandelkeuzes en verwachtingen die de data zelf hebben gekleurd.
Beslissingen over passende IC-zorg zullen dan ook in het tijdperk van big data blijven plaatsvinden in grijs prognostisch gebied: niet bij kansen <1%, maar bij 10%, 30% of 50% op overleving of functioneel herstel. Bij zulke getallen verliest prognostiek haar normatieve kracht om tot een algemeen geldende consensus te leiden.
Dit heeft belangrijke gevolgen voor de manier waarop we als beroepsgroep invulling kunnen geven aan de aanbeveling van de Werkgroep Passende Zorg om ‘toe te werken naar landelijke consensus over de ondergrens van proportionele IC-zorg’. De Leidraad Passende Zorg die momenteel in ontwikkeling is kán die ondergrens niet op een sluitende manier verankeren in data: geen enkel model levert zonder nadere klinische oordeelsvorming een voorspelling die betrouwbaar genoeg is om er een normatieve grens op te baseren. Een individuele voorspelling is nooit écht correct.
Belangrijker is hoe we verantwoord besluiten kunnen nemen onder onvermijdelijke onzekerheid. Gelukkig hoeven we dat wiel niet helemaal zelf uit te vinden: ook in andere maatschappelijke domeinen, zoals de rechtspraak, wordt een oneindige variatie aan unieke gevallen langs een gemeenschappelijke lat gelegd zonder terug te grijpen op een expliciete kansdrempel. Bijvoorbeeld door het opbouwen van normatieve casuïstiek (richtinggevende gevallen waarover consensus bestaat), procedurele waarborgen (hoe komen we tot een beslissing) en gedeelde standaarden (aan welke eisen voldoet betrouwbare prognostische informatie).
De komende jaren zullen we als IC-onderzoeksgemeenschap op basis van data veel nieuwe inzichten vergaren over de uitkomsten van IC-patiënten. Over overleving, maar vooral ook over kwaliteit van leven en functioneel herstel.[18] Deze inzichten kunnen een belangrijke rol spelen bij besluitvorming over passende zorg door de verwachtingen van zorgverleners, patiënten en families te ijken, om zo bij te dragen aan het verminderen van onzekerheid, bias en willekeur, en IC-zorg beter te laten aansluiten bij de wensen van de patiënt. Maar alleen als we zulke modelvoorspellingen gebruiken als oriëntatiepunt, niet als het definitieve antwoord op de vraag ‘heeft intensive care-opname voor deze patiënt toegevoegde waarde?’
De auteur verklaart dat er geen sprake is van een belangenconflict. Er is geen financiering of financiële steun ontvangen.
Referenties
- Nederlandse Vereniging voor Intensive Care. NVIC Kennisagenda 2025 [Internet]. Available from: https://www.nvic.nl/kennisagenda/
- Nederlandse Vereniging voor Intensive Care. Passende zorg op de intensive care [Internet]. Available from: https://www.nvic.nl/passende-zorg/
- Federatie Medisch Specialisten. Richtlijn prognose van postanoxisch coma [Internet]. 2019. Available from: https://richtlijnendatabase.nl/richtlijn/prognose_van_postanoxisch_coma/startpagina.html
- Barreñada L, Steyerberg EW, Timmerman D, Thomassen D, Wynants L, Van Calster B. The fundamental problem of risk prediction for individuals: health AI, uncertainty, and personalized medicine [Internet]. arXiv; 2025 [cited 2025 Dec 24]. Available from: https://arxiv.org/abs/2506.17141 doi:10.48550/ARXIV.2506.17141
- Lemeshow S, Klar J, Teres D. Outcome prediction for individual intensive care patients: Useful, misused, or abused? Intensive Care Med. 1995 Sep;21(9):770–6. doi:10.1007/BF01704747
- Hájek A. The reference class problem is your problem too. Synthese. 2007 Jun;156(3):563–85. doi:10.1007/s11229-006-9138-5
- Riley RD, Pate A, Dhiman P, Archer L, Martin GP, Collins GS. Clinical prediction models and the multiverse of madness. BMC Med. 2023 Dec 18;21(1):502. doi:10.1186/s12916-023-03212-y
- de Grooth HJ, Steyerberg EW. Wat betekent een kans voor een individuele patiënt? Misverstanden over onzekerheid en de rol van statistische modellen in medische besluitvorming. Ned Tijdschr Geneeskd. 2026 Feb 18;170:D8760. PubMed PMID: 41718597.
- Spiegelhalter D. Why probability probably doesn’t exist (but it is useful to act like it does). Nature. 2024 Dec;636(8043):560–3. doi:10.1038/d41586-024-04096-5 PubMed PMID: 39681646.
- Otten M, Van Kempen BJH, Van Der Woude B, Dam TA, Gigengack RK, Müller MCA, et al. Long-term mortality in ICU patients with hematological malignancies: Impact of organ support duration and ICU length of stay. Journal of Critical Care. 2025 Oct;89:155122. doi:10.1016/j.jcrc.2025.155122
- Haas LEM, Bakhshi-Raiez F, van Dijk D, de Lange DW, de Keizer NF. Outcomes of Intensive Care Patients Older Than 90 Years: An 11-Year National Observational Study. J Am Geriatr Soc. 2020 Aug;68(8):1842–6. doi:10.1111/jgs.16624 PubMed PMID: 32592608.
- Iapichino G, Corbella D, Minelli C, Mills GH, Artigas A, Edbooke DL, et al. Reasons for refusal of admission to intensive care and impact on mortality. Intensive Care Med. 2010 Oct;36(10):1772–9. doi:10.1007/s00134-010-1933-2 PubMed PMID: 20533023.
- Van Amsterdam WAC, Van Geloven N, Krijthe JH, Ranganath R, Cinà G. When accurate prediction models yield harmful self-fulfilling prophecies. Patterns. 2025 Apr;6(4):101229. doi:10.1016/j.patter.2025.101229
- Colunga-Lozano LE, Foroutan F, Rayner D, De Luca C, Hernández-Wolters B, Couban R, et al. Clinical judgment shows similar and sometimes superior discrimination compared to prognostic clinical prediction models: a systematic review. Journal of Clinical Epidemiology. 2024 Jan;165:111200. doi:10.1016/j.jclinepi.2023.10.016
- Wildman MJ, Sanderson C, Groves J, Reeves BC, Ayres J, Harrison D, et al. Implications of prognostic pessimism in patients with chronic obstructive pulmonary disease (COPD) or asthma admitted to intensive care in the UK within the COPD and asthma outcome study (CAOS): multicentre observational cohort study. BMJ. 2007 Dec 1;335(7630):1132. doi:10.1136/bmj.39371.524271.55
- Soliman IW, Cremer OL, De Lange DW, Slooter AJC, Van Delden J (Hans) JM, Van Dijk D, et al. The ability of intensive care unit physicians to estimate long-term prognosis in survivors of critical illness. Journal of Critical Care. 2018 Feb;43:148–55. doi:10.1016/j.jcrc.2017.09.007
- Cox EGM, Onrust M, Vos ME, Paans W, Dieperink W, Koeze J, et al. The simple observational critical care studies: estimations by students, nurses, and physicians of in-hospital and 6-month mortality. Crit Care. 2021 Dec;25(1):393. doi:10.1186/s13054-021-03809-w
- Porter LL, Simons KS, Ramjith J, Corsten S, Westerhof B, Rettig TCD, et al. Development and External Validation of a Prediction Model for Quality of Life of ICU Survivors: A Subanalysis of the MONITOR-IC Prospective Cohort Study. Crit Care Med. 2023 May 1;51(5):632–41. doi:10.1097/CCM.0000000000005800 PubMed PMID: 36825895.