Des chercheurs du CHU Tivoli (La Louvière), de l’Hôpital universitaire de Bruxelles (HUB) et de l’Université de Mons ont participé à une étude internationale publiée dans la revue Brain Sciences, qui analyse la qualité des réponses générées par un chatbot alimenté par le modèle GPT-4o d’OpenAI aux questions fréquemment posées par les proches de patients atteints d’un infarctus malin de l’artère cérébrale moyenne (IMACM).
L'équipe de recherche, incluant les Belges Nawfel Ben-Hamouda, Nicolas Massager et Jérôme R. Lechien, a testé GPT-4o en lui posant 25 questions fréquemment posées par les familles concernant la craniectomie décompressive, une intervention chirurgicale d'urgence pratiquée dans les cas d'IMACM. Les réponses générées par l'IA ont été évaluées par des spécialistes en soins intensifs, neurologie et neurochirurgie à l’aide d’un outil standardisé, le QAMAI (Quality Analysis of Medical Artificial Intelligence) selon plusieurs critères : exactitude, clarté, pertinence, exhaustivité, utilité et qualité des sources.
Les résultats indiquent que le chatbot fournit des réponses d'une qualité modérée à élevée, particulièrement en termes d'exactitude, de clarté et de pertinence. En ce qui concerne la lisibilité, les textes produits s’adressent à un public ayant un niveau d’instruction universitaire, ce qui peut limiter leur accessibilité pour les familles de patients.
Des lacunes ont également été identifiées concernant l'exhaustivité des informations, l'utilité pratique et la citation de sources fiables. L'IA ne fournit pas systématiquement des références pour étayer ses réponses, ce qui limite son utilisation comme outil d'information autonome.
Les auteurs concluent que GPT-4o fournit des informations globalement fiables, mais que des limites en lisibilité, en complétude et en absence de sources vérifiables réduisent son efficacité auprès du grand public. Ils recommandent de développer des systèmes mieux adaptés, lisibles et validés cliniquement.