Artsen die zijn getraind in het kritisch beoordelen van artificiële intelligentie lopen nog steeds het risico om bij hun diagnostische redenering verkeerde aanbevelingen van ChatGPT op te volgen. Dat blijkt uit een gerandomiseerde studie die eind april is gepubliceerd in NEJM AI.
De studie werd tussen 20 juni en 15 augustus 2025 in Pakistan uitgevoerd onder 44 artsen die een opleiding van 20 uur in AI-geletterdheid hadden gevolgd. De deelnemers werden in twee groepen verdeeld en moesten zes klinische gevallen analyseren.
Ze konden allemaal, als extraatje, de diagnostische aanbevelingen van ChatGPT-4o raadplegen, naast de gebruikelijke diagnostische hulpmiddelen. In de controlegroep waren de aanbevelingen foutloos. In de andere groep waren er opzettelijk fouten ingebouwd in drie van de zes gevallen, die in willekeurige volgorde werden gepresenteerd.
De artsen die aan deze foutieve aanbevelingen werden blootgesteld, behaalden een gemiddelde score voor diagnostisch redeneren van 73,3%, tegenover 84,9% in de controlegroep, wat neerkomt op een gecorrigeerde daling van 14 procentpunten.
De gekozen hoofddiagnose was ook minder vaak correct in de groep die aan de fouten werd blootgesteld: 76,1%, tegenover 90,5% in de controlegroep, wat neerkomt op een gecorrigeerd verschil van 18,3 procentpunten.
De onderzoekers concluderen dat artsen sterk beïnvloed kunnen worden door foutieve aanbevelingen van grote taalmodellen, zelfs wanneer ze zijn getraind in AI en de vrijheid behouden om de voorstellen van de tool te accepteren, aan te passen of te verwerpen.
“Deze resultaten wijzen op veiligheidsrisico's die robuuste validatiekaders en regelgevende waarborgen vereisen voordat AI op grote schaal in de klinische praktijk wordt ingezet”, schrijven de auteurs.
De studie herinnert eraan dat grote taalmodellen plausibele maar onjuiste informatie kunnen genereren, die het diagnostisch redeneringsproces kan beïnvloeden.







