De invloed van explainable AI op het diagnostische proces van acuut respiratoir falen
Auteur(s):
Maike Imkamp1, Bart Scheenstra2, Iwan van der Horst1,2
1Afdeling Intensive Care, Maastricht Universitair Medisch Centrum+, Maastricht
2Cardiovascular Research Institute Maastricht (CARIM), Universiteit Maastricht, Maastricht
Correspondentie:
M. Imkamp - maike.imkamp@mumc.nl
De invloed van explainable AI op het diagnostische proces van acuut respiratoir falen
Achtergrond
Artificial intelligence (AI) kan de klinische besluitvorming verbeteren, maar bias, zoals onvoldoende kwaliteit en/of kwantiteit van trainingsdata, kan leiden tot verkeerde adviezen van AI. Met explainable AI wordt er inzicht gegeven in de werking van het AI-model. Deze uitleg zorgt mogelijk dat zorgverleners foutieve AI-adviezen herkennen en minder vaak overnemen.
Doel van de studie
Jabbour et al. onderzochten of explainable AI daadwerkelijk de diagnostische nauwkeurigheid van zorgverleners beïnvloed bij het beoordelen van klinische casuïstiek.
Design
Gerandomiseerd klinisch casusonderzoek bij Amerikaanse zorgverleners.
Interventie
Zorgverleners beoordeelden negen casus van acuut respiratoir falen (ARF) op basis van een klinisch vignet op de waarschijnlijkheid van pneumonie, hartfalen en/of chronisch obstructieve longziekte (COPD) als onderliggende oorzaak. De casus omvatten: a) twee casus zonder AI-advies; b) drie casus met AI-advies van een normaal AI model, waarbij at random uitleg was toegevoegd middels een uitgelichte regio op de X-thorax (figuur 1); c) drie casus met advies van een gebiased AI-model met at random uitleg; d) een casus met collegiaal advies.
Het normale AI-model voorspelde de onderliggende diagnose aan de hand van klinische data en de X-thorax. De area under the ROC curve was 0.79 voor pneumonie, 0.83 voor hartfalen en 0.88 voor COPD. Het gebiasde model had de volgende biases: a) verhoogde waarschijnlijkheid voor pneumonie bij > 80 jaar; b) verhoogde waarschijnlijkheid voor hartfalen bij een BMI ≥ 30; c) verhoogde waarschijnlijkheid voor COPD bij zichtbare blur op de X-thorax.
Belangrijkste resultaten
418 zorgverleners beoordeelden alle casussen. 66,7% was zich niet bewust van de mogelijkheid van bias bij AI.
De diagnostische nauwkeurigheid zonder AI-advies was 73,0%, met AI-advies van een normaal model zonder uitleg 75,9%, en met uitleg 77,5%. Diagnostische nauwkeurigheid met gebiased AI-advies zonder uitleg was 61,7% en met uitleg 64,0% (niet statistisch significant verschil). Diagnostische nauwkeurigheid met collegiaal advies was 81,1%.
Statistische analyse
Powerberekeningen gaven aan dat ≥ 400 deelnemers nodig waren. Een cross-classified random-effects model vergeleek de diagnostische nauwkeurigheid.
Conclusie
Explainable AI verbetert de diagnostische nauwkeurigheid van zorgverleners bij niet-gebiasde AI-modellen.
In één zin samengevat
Het toevoegen van uitleg bij AI-adviezen verbetert de diagnostische nauwkeurigheid, maar gebiased AI-advies, zowel met als zonder uitleg, resulteert in een lagere nauwkeurigheid.
Validiteit
De studie had voldoende statistische power en een gerandomiseerde onderzoeksopzet. De steekproef lijkt redelijk representatief voor de totale Amerikaanse populatie zorgverleners. De biases in het gebiasde AI-model zijn realistisch en vergelijkbaar met potentiële problemen bij het gebruik van AI in de kliniek.
Betekenis
Hoewel het klinisch ziektebeeld vergelijkbaar is in Nederland, verschillen patiëntenpopulatie, zorgsysteem, protocollen en werkcultuur. De studie geeft inzicht in hoe zorgverleners omgaan met AI-adviezen en -uitleg.
Consequentie
Explainable AI kan de diagnostische nauwkeurigheid verbeteren. Echter, de studieresultaten suggereren een neiging van zorgverleners om te veel vertrouwen toe te kennen aan het AI-model, wat niet verbetert met uitleg. Gezien het aanzienlijke percentage (Amerikaanse) zorgverleners dat zich onbewust was van potentiële AI-bias is onderwijs over het gebruik van AI in de gezondheidszorg essentieel. Idealiter fungeert AI als een coassistent: AI kan een waardevolle bron van inzicht zijn, maar wel onder nauwlettend en kritisch toezicht. Interactie tussen zorgverlener en AI, waarbij eerst eigen diagnose gesteld wordt, lijkt daarom een passende strategie.
Daarnaast leverde collegiaal advies een hogere diagnostische nauwkeurigheid op dan AI-advies. Dit benadrukt het belang van samenwerking tussen zorgverleners, vooral bij complexe situaties. Ondersteuning van AI kan, onder randvoorwaarden, in niet-complexe situaties de werkdruk verlichten.
Jabbour S, Fouhey D, Shepard S, et al. Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study. JAMA. 2023;330(23):2275–2284. doi:10.1001/jama.2023.22295