Des médecins formés à l’évaluation critique de l’intelligence artificielle restent exposés au risque de suivre des recommandations erronées de ChatGPT dans un raisonnement diagnostique. C’est ce que montre une étude randomisée publiée fin avril dans NEJM AI.
L’étude a été menée au Pakistan entre le 20 juin et le 15 août 2025 auprès de 44 médecins ayant suivi une formation de 20 heures à la littératie en IA. Les participants ont été répartis en deux groupes et devaient analyser six cas cliniques.
Tous pouvaient consulter, de manière facultative, les recommandations diagnostiques de ChatGPT-4o, en complément des ressources diagnostiques habituelles. Dans le groupe contrôle, les recommandations ne comportaient pas d’erreur. Dans l’autre groupe, des erreurs avaient été volontairement introduites dans trois des six cas, présentés dans un ordre aléatoire.
Les médecins exposés à ces recommandations erronées ont obtenu un score moyen de raisonnement diagnostique de 73,3 %, contre 84,9 % dans le groupe contrôle, soit une baisse ajustée de 14 points de pourcentage.
Le diagnostic principal retenu était également moins souvent correct dans le groupe exposé aux erreurs : 76,1 %, contre 90,5 % dans le groupe contrôle, soit un écart ajusté de 18,3 points.
Les chercheurs concluent que les médecins peuvent être fortement influencés par des recommandations erronées produites par les grands modèles de langage, même lorsqu’ils ont été formés à l’IA et qu’ils gardent la liberté d’accepter, de modifier ou de rejeter les propositions de l’outil.
« Ces résultats mettent en évidence des risques pour la sécurité qui nécessitent des cadres de validation robustes et des garde-fous réglementaires avant un déploiement clinique à grande échelle de l’IA », écrivent les auteurs.
L’étude rappelle que les grands modèles de langage peuvent générer des informations plausibles mais fausses, susceptibles d’altérer le raisonnement diagnostique.
Lire aussi : Des radiographies générées par ChatGPT trompent des radiologues expérimentés







