Door ChatGPT gegenereerde röntgenfoto’s misleiden ervaren radiologen

13 mei 2026
door P.M.

Door artificiële intelligentie gegenereerde röntgenfoto’s zijn inmiddels zo realistisch dat ze zelfs aan de waakzaamheid van ervaren radiologen ontsnappen. Een studie gepubliceerd in Radiology toont aan dat synthetische beelden, geproduceerd met GPT-4o, in 92,4% van de gevallen diagnostisch correct werden geïnterpreteerd, een percentage dat vergelijkbaar is met dat van authentieke röntgenfoto’s. Zelfs toen ze waren gewaarschuwd voor de aanwezigheid van deepfakes, konden de deelnemende radiologen de vervalsingen slechts in 75% van de gevallen correct identificeren. Numerikare nodigt u uit om zelf te testen of u het echte van het valse kunt onderscheiden.

Aan het onderzoek van Yair Tordjman, Mehmet Yuce en hun collega's namen 17 radiologen uit zes landen deel. De onderzoekers legden de deelnemers een mix voor van 77 authentieke röntgenfoto's en 77 door GPT-4o gegenereerde beelden, zonder te vermelden dat sommige beelden kunstmatig waren.

In deze eerste fase merkte 59% van de radiologen niets ongewoons op. De diagnostische prestaties bleken vergelijkbaar te zijn tussen de twee groepen beelden: 92,4% diagnostische nauwkeurigheid voor de synthetische röntgenfoto's tegenover 91,3% voor de authentieke beelden, zonder statistisch significant verschil.

In een tweede fase werden de radiologen geïnformeerd over de aanwezigheid van door AI gegenereerde beelden en gevraagd om de valse beelden van de echte te onderscheiden. Hun totale detectiegraad bedroeg 75%, wat betekent dat één op de vier synthetische beelden niet als zodanig werd geïdentificeerd, ondanks een actieve zoektocht naar deepfakes.

De auteurs constateerden geen verband tussen beroepservaring en detectievermogen (P = 0,45). Volgens de studie presteerden de meest ervaren radiologen niet beter dan de jongere artsen.

Dertien van de 17 deelnemende radiologen, oftewel 76%, wisten bovendien vóór de studie niet dat ChatGPT realistische röntgenfoto's kon genereren.

De onderzoekers hebben ook verschillende multimodale modellen voor artificiële intelligentie geëvalueerd. GPT-4o identificeerde 85% van de beelden die het zelf had gegenereerd correct, terwijl GPT-5 83% haalde. De prestaties van Gemini 2.5 Pro en Llama 4 Maverick bleven dicht bij toeval, met respectievelijk 56% en 59% nauwkeurigheid.

De auteurs benadrukken dat deze studie een breuk vormt met eerder onderzoek naar medische deepfakes. Tot nu toe was het genereren van synthetische medische beelden voornamelijk gebaseerd op generatieve antagonistische netwerken (GAN's), waarvoor geavanceerde technische vaardigheden en gespecialiseerde trainingsdatasets nodig waren. Nu grote multimodale modellen voor het grote publiek toegankelijk zijn, volstaat een eenvoudige tekstuele zoekopdracht om een thoraxfoto te genereren die diagnostisch aannemelijk wordt geacht.

De studie noemt verschillende potentiële risico's: verzekeringsfraude met verzonnen beeldmateriaal, vervalsing van medisch bewijsmateriaal in rechtszaken, opname van synthetische beelden in openbare databases die worden gebruikt om medische AI te trainen, of zelfs het opzettelijk creëren van fictieve aandoeningen.

De auteurs wijzen ook op verschillende huidige tekortkomingen, met name het ontbreken van mechanismen voor het melden van synthetische medische beelden, het ontbreken van gestandaardiseerde DICOM-metadata waarmee de herkomst van de beelden kan worden getraceerd, en het gebrek aan expliciete regelgevende aanbevelingen van de Amerikaanse Food and Drug Administration of het Europees Geneesmiddelenbureau.

Zij bevelen radiologische afdelingen aan om snel bewustwordingstrainingen over deepfakes op te zetten, systemen voor het verifiëren van de herkomst van DICOM-beelden in te voeren en institutionele procedures voor de authenticatie van externe onderzoeken te integreren in de PACS.

En u, zou u een echte röntgenfoto kunnen onderscheiden van een door AI gegenereerd beeld?

> Test uzelf

Referenties

- The Rise of Deepfake Medical Imaging: Radiologists’ Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs

U wil op dit artikel reageren ?

Toegang tot alle functionaliteiten is gereserveerd voor professionele zorgverleners.

Indien u een professionele zorgverlener bent, dient u zich aan te melden of u gratis te registreren om volledige toegang te krijgen tot deze inhoud.
Bent u journalist of wenst u ons te informeren, schrijf ons dan op redactie@rmnet.be.

Ik meld mij aan

Ik registreer mij