Basics
Beter bewijs met Bayes?
Inhoud:

    Auteur(s):

    Harm-Jan de Grooth, Olaf Cremer, Lennie Derde

     

    Intensive Care Centrum, UMC Utrecht, Utrecht

    Correspondentie:

    h.j. de Grooth - h.j.s.degrooth@umcutrecht.nl
    Basics

    Beter bewijs met Bayes?

    Introductie

    Dominee Thomas Bayes (1702 - 1761) is hot. Na een eeuw van 'frequentisme' is Bayesiaanse statistiek terug van weggeweest. Ook steeds meer klinische IC-studies worden met Bayesiaanse methoden geanalyseerd en gerapporteerd. De oorzaak van deze heropleving is een samenloop van veranderd inzicht, technische ontwikkelingen en nieuwe toepassingen (zie Wat is de kans?). Kortom, er zijn verschillende redenen waarom onderzoekers steeds vaker kiezen voor Bayes. Maar dat veroorzaakt ook verwarring en misverstanden, zoals het idee dat alle Bayesiaanse analyses subjectief van aard zijn.

    In dit artikel beschrijven we de basics van Bayesiaanse statistiek en drie belangrijke toepassingen voor klinisch interventieonderzoek op de IC: reguliere trials met een vooropgezet Bayesiaans analyseplan, reguliere trials die achteraf opnieuw worden geanalyseerd met verschillende priors, en adaptieve platform trials.

    De revival van Bayes

    De hernieuwde interesse in Bayesiaanse statistiek wordt gedeeltelijk aangejaagd door groeiende onvrede over de wetenschappelijke cultus rondom p-waarden. Al decennialang pleiten statistici en wetenschapsfilosofen tegen het idee dat p=0.05 een werkelijke scheidslijn vormt tussen toeval en 'significante' bevindingen.[1] In 2019 schrijven 800 wetenschappers in Nature dat het hoog tijd is om p<0.05 en het concept 'statistisch significant' helemaal af te schaffen.[2] 's Werelds grootste wetenschappelijke vereniging voor statistiek valt hen bij met een ondubbelzinnige consensusverklaring: The tool has become the tyrant. [...] Don’t base conclusions solely on whether an association or effect was found to be statistically significant.[3] Toch blijft het voor veel onderzoekers, editors, reviewers en lezers aantrekkelijk om studieresultaten in te delen in 'positieve' en 'negatieve' bevindingen. Of, nog erger, om sterke maar niet-statistisch-significante bevindingen in kleine studies af te doen als ‘geen effect’. Een klassieke misvatting waarbij absence of evidence wordt uitgelegd als evidence of absence.

    Bayes biedt uitkomst. De resultaten van Bayesiaanse analyses zijn niet dichotoom maar gradueel. Er worden geen nulhypotheses getoetst en p-waarden bestaan niet. 'Statistisch significant' komt niet voor in het Bayesiaanse wereldbeeld.

    Een Bayesiaanse analyse is de optelsom van wat we wisten vóór de uitvoering van een studie (de prior probability distribution, ook wel prior) en de gegevens die verzameld zijn. De combinatie van de prior en de geobserveerde studiedata geeft, via de regel van Bayes, de posterior probability distribution. Hieruit kunnen onzekerheidsintervallen en directe kansen worden afgeleid, zoals de kans op enig voordeel (relatief risico <1), de kans op een klinisch relevant voordeel (bijvoorbeeld een absoluut risicoverschil van meer dan 2 procentpunten), de kans op klinisch relevant nadeel, enzovoort. Posterior probabilities zijn dus éénzijdige kansen (er bestaat tegelijkertijd een kans op effectiviteit, futiliteit, equivalentie en schade), terwijl p-waarden in de regel tweezijdig zijn gedefinieerd.

    Vooraf wijs, achteraf prijs

    Onderzoekers die een randomized controlled trial (RCT) ontwerpen met een vooropgezet Bayesiaans analyseplan doen dat in de regel met een neutrale prior die weinig informatief is en dus geen noemenswaardige invloed uitoefent op de posterior. Het Bayesiaanse 95% credible interval zal dan nagenoeg gelijk zijn aan het frequentistische 95% confidence interval (figuur 1). Een filosofisch verschil tussen zulke identieke intervallen is interessant voor statistische fijnslijpers maar in de praktijk weinig relevant. Zonder informatieve prior beschrijven beide onzekerheidsintervallen de bandbreedte van behandeleffecten die redelijk consistent zijn met de geobserveerde studiedata.

    Figuur 1. Twee trials geanalyseerd op verschillende manieren De 95% onzekerheidsintervallen zijn gebaseerd op frequentistische en Bayesiaanse analyses van twee gesimuleerde randomized controlled trials (RCTs) met eenzelfde geobserveerd behandeleffect (absolute risicoreductie 8%). Zonder informatieve prior zijn de Bayesiaanse analyseresultaten nagenoeg gelijk aan de frequentistische. Met toevoeging van een skeptische prior (verwachting van geen of klein behandeleffect) of enthousiaste prior (verwachting van positief behandeleffect) wordt de posterior een weging van zowel de voorafkans als de geobserveerde data. Het effect van de informatieve priors is vooral merkbaar bij weinig studiedata: het resultaat van de kleine studie (A) wordt veel meer beïnvloedt door de prior dan dat van de grote studie (B).

    Steeds meer RCT’s worden nu echter ook achteraf onderworpen aan een Bayesiaanse heranalyse.[4–6] Het doel is dan juist wel om informatieve priors te gebruiken. De studieresultaten worden gecombineerd met een serie van verschillende a priori opvattingen: hoe zouden we de achterafkans op een gunstig behandeleffect schatten als we vooraf enthousiast (hoge kans op een positief effect), sceptisch (hoge kans op een nuleffect) of negatief (hoge kans op schade) waren geweest? Het beoogde doel van zulke heranalyses is de lezer in staat te stellen om de studieresultaten te interpreteren in het licht van externe informatie en opvattingen.[6] Wij zijn echter van mening dat dit weinig bijdraagt aan een constructief wetenschappelijk discours.

    Dat komt omdat expliciet subjectieve Bayesiaanse heranalyses op dit moment vooral worden toegepast op studies die nèt geen ‘statistisch significant’ behandeleffect laten zien in de primaire frequentistische analyse. Het is dan weinig verbazingwekkend dat een sterk enthousiaste prior de behandeling werkzaam doet lijken en een sterk negatieve prior de behandeling nutteloos doet lijken. Het is ons niet duidelijk hoe zulke analyses met verschillende priors kunnen leiden tot betere beslissingen of consensus tussen voor- en tegenstanders van een behandeling.[7]

    Toch denken we dat informatieve priors wel degelijk een rol kunnen spelen in evidence based medicine. Een enkele goed gekozen en vooraf vastgelegde prior kan enerzijds de opgeblazen (toevals)treffers van kleine studies temperen en anderzijds inzichtelijk maken hoe robuust de resultaten van grote studies zijn in bredere context. Het gebruik van een dergelijke consensus prior is vooralsnog helaas toekomstmuziek.

    Flexibiliteit in trial design

    Een andere oorzaak voor de populariteit van Bayes is de toenemende complexiteit van klinische interventiestudies.[8]  RCT’s waren –tot voor kort– vanuit statistisch oogpunt eenvoudige experimenten die naadloos aansloten aan bij het basisprincipe van frequentistische statistiek: het toetsen van een nulhypothese door willekeurige toewijzing van een enkele interventie. Maar dit raamwerk is inmiddels vaak te star en statisch gebleken. Alle aspecten van een experiment moeten vooraf worden gespecificeerd. Dat kan leiden tot onwenselijke situaties. Een voorbeeld: de EOLIA-trial naar het effect van ECMO bij ARDS toonde bij interim-analyse een absoluut overlevingsvoordeel van 13% maar werd desondanks voortijdig afgebroken, niet vanwege bewezen effectiviteit maar vanwege het nipt overschrijden van de vooraf vastgestelde futility-grens – een bijna onbegrijpelijke beslissing die voortkwam uit de rigiditeit van het frequentistische raamwerk.[9, 10]

    Er is daarom steeds meer vraag naar flexibeler manieren om RCT’s te ontwerpen, naar statistische methoden die ook valide resultaten geven als het verwachte behandeleffect en de groepsgrootte gaandeweg worden bijgesteld. Ook zou er meer flexibiliteit mogelijk moeten zijn dan 'één patiënt, één loting, één primaire uitkomstmaat', een concept dat geen recht doet aan de klinische praktijk waarin patiënten meerdere behandelingen tegelijk krijgen.

    Een Bayesiaanse benadering is niet gebaseerd op het toetsen van een enkele nulhypothese en daarom meer geschikt voor de analyse van flexibele masterprotocollen, waarbij één overkoepelende RCT wordt ontworpen om meerdere onderzoeksvragen tegelijk te beantwoorden.[11] Platformstudies zijn hiervan een subgroep (naast umbrella en basket trials), waarbij 1) meerdere interventies parallel worden onderzocht; 2) interventies kunnen worden toegevoegd of verwijderd uit het platform op basis van vooraf gespecificeerde beslisregels; 3) controlepatiënten efficiënt gebruikt worden; en 4) gestratificeerd kan worden voor subgroepen.

    De verschillende interventies worden vaak gegroepeerd in domeinen. Deelnemers kunnen dan maar één interventie in elk domein gealloceerd krijgen, maar kunnen wel voor meerdere domeinen tegelijkertijd worden gerandomiseerd. In- en exclusiecriteria kunnen worden gedefinieerd op het niveau van de trial (‘het platform’), een domein, of een specifieke interventie. De groepsgrootte hoeft van tevoren niet vast te staan en het domein kan eenvoudigweg doorlopen tot er voldoende zekerheid is bereikt over werkzaamheid, schade of futiliteit.

    Het doel van het Bayesiaanse analyseplan is bij zulke studies dus om de flexibiliteit van het platform technisch mogelijk te maken – niet om via informatieve priors subjectiviteit in de analyse te introduceren.

    Conclusie

    Voor een correcte interpretatie van klinische studies is het belangrijk om twee toepassingen van Bayesiaanse analyses te onderscheiden.

    Enerzijds zijn er RCT’s met een vooropgezet Bayesiaans analyseplan die zo gekalibreerd zijn dat de prior geen belangrijke invloed uitoefent op de posterior. Hoewel p-waarden en posterior probabilities een subtiel andere interpretatie vergen zullen de Bayesiaanse resultaten niet veel afwijken van een frequentistische analyse.

    Anderzijds worden steeds meer – vaak inconclusieve – RCT’s achteraf nog eens opnieuw geanalyseerd met verschillende informatieve priors. Dit idee, waarbij iedereen als het ware een behandeleffect kan kiezen op basis van zijn of haar eigen a priori overtuigingen, draagt volgens ons weinig bij aan wetenschappelijke consensusvorming. Toch sluiten we niet uit dat een goedgekozen subjectieve prior wel degelijk van waarde kan zijn voor de interpretatie van bepaalde studies. Hoe dit concreet moet worden vormgegeven blijft de komende jaren werk in uitvoering.

    Eén ding weten we zeker: Dominee Thomas Bayes is here to stay.

     

    De auteurs verklaren dat er geen sprake is van een belangenconflict. Er is geen financiering of financiële steun ontvangen. 

     

    Referenties

    1. Sterne J, Davey Smith G (2001) Sifting the evidence-what’s wrong with significance tests? BMJ 322:226–231. https://doi.org/10.1136/bmj.322.7280.226
    2. Amrhein V, Greenland S, McShane B (2019) Scientists rise up against statistical significance. Nature 567:305–307. https://doi.org/10.1038/d41586-019-00857-9
    3. Wasserstein RL, Schirm AL, Lazar NA (2019) Moving to a World Beyond “p < 0.05.” Am Stat 73:1–19. https://doi.org/10.1080/00031305.2019.1583913
    4. Goligher EC, Tomlinson G, Hajage D, et al (2018) Extracorporeal Membrane Oxygenation for Severe Acute Respiratory Distress Syndrome and Posterior Probability of Mortality Benefit in a Post Hoc Bayesian Analysis of a Randomized Clinical Trial. JAMA – Journal of the American Medical Association 320:2251–2259. https://doi.org/10.1001/jama.2018.14276
    5. Granholm A, Munch MW, Myatra SN, et al (2021) Dexamethasone 12 mg versus 6 mg for patients with COVID-19 and severe hypoxaemia: a pre-planned, secondary Bayesian analysis of the COVID STEROID 2 trial. Intensive Care Med. https://doi.org/10.1007/s00134-021-06573-1
    6. Yarnell CJ, Abrams D, Baldwin MR, et al (2021) Clinical trials in critical care: can a Bayesian approach enhance clinical and scientific decision making? Lancet Respir Med 9:207–216. https://doi.org/10.1016/S2213-2600(20)30471-9
    7. de Grooth H-J, Cremer OL (2023) Bayes and the Evidence Base: Re-Analyzing Trials Using Many Priors Does Not Contribute to Consensus. Am J Respir Crit Care Med. https://doi.org/10.1164/rccm.202308-1455VP
    8. Granholm A, Alhazzani W, Derde LPG, et al (2022) Randomised clinical trials in critical care: past, present and future. Intensive Care Med 48:164–178. https://doi.org/10.1007/s00134-021-06587-9
    9. Combes A, Hajage D, Capellier G, et al (2018) Extracorporeal Membrane Oxygenation for Severe Acute Respiratory Distress Syndrome. New England Journal of Medicine 378:1965–1975. https://doi.org/10.1056/NEJMoa1800385
    10. Harrington D, Drazen JM (2018) Learning from a Trial Stopped by a Data and Safety Monitoring Board. N Engl J Med 378:2031–2032. https://doi.org/10.1056/NEJMe1805123
    11. Woodcock J, LaVange LM (2017) Master Protocols to Study Multiple Therapies, Multiple Diseases, or Both. N Engl J Med 377:62–70. https://doi.org/10.1056/NEJMra1510062
    12. Ioannidis JPA (2005) Why most published research findings are false. PLoS Med 2:e124. https://doi.org/10.1371/journal.pmed.0020124