Une étude d’Apple met en garde contre « le raisonnement » de certains modèles d’IA

Alors que les grands modèles de langage se multiplient, une équipe de chercheurs d’Apple alerte sur leurs capacités de raisonnement limitées face à des tâches complexes. Dans leur étude intitulée The Illusion of Thinking, publiée début juin, ils démontrent que même les modèles les plus avancés échouent à produire un raisonnement cohérent lorsque la difficulté augmente.

Plutôt que de se fonder sur des benchmarks mathématiques classiques, souvent affectés par des biais tels que la contamination des données d'entraînement, les auteurs recourent à des environnements de puzzles contrôlés permettant de moduler précisément la complexité compositionnelle tout en maintenant des structures logiques constantes. Cette approche rend possible l’évaluation à la fois de la réponse finale et des étapes de raisonnement intermédiaires générées par les modèles.

Des performances en trois phases

Les résultats empiriques montrent l'existence de trois régimes distincts de performance. Dans les tâches simples, les modèles standards sans mécanisme explicite de réflexion surpassent les LRMs en termes de précision et d'efficacité computationnelle. Pour les tâches de complexité intermédiaire, les LRMs, capables de produire des chaînes de pensée structurées, obtiennent de meilleurs résultats. En revanche, lorsqu’on atteint un niveau élevé de complexité, tous les modèles, qu'ils soient dotés ou non de mécanismes de raisonnement, échouent systématiquement, avec une chute brutale de la performance. Ce phénomène s'accompagne d'une réduction paradoxale de l’effort de raisonnement à mesure que la complexité augmente, et ce, malgré un budget en tokens largement suffisant. Cela suggère une limitation intrinsèque des mécanismes de raisonnement actuellement implémentés dans ces modèles.

Une réflexion inefficace face à la complexité

L’analyse des traces de raisonnement révèle plusieurs phénomènes caractéristiques. Dans les problèmes simples, les modèles identifient parfois rapidement la bonne solution, mais continuent à explorer des alternatives incorrectes, ce qui traduit un phénomène de sur-réflexion. À mesure que la complexité augmente, la solution correcte apparaît plus tardivement dans la séquence de réflexion, tandis que dans les cas complexes, les modèles échouent à toute étape du raisonnement. Ces observations suggèrent des capacités limitées d’auto-correction et un usage inefficace de la mémoire de travail.

Un algorithme explicite ne change rien

Les auteurs montrent également que fournir aux modèles un algorithme explicite de résolution n’améliore pas leurs performances. Même lorsque la tâche ne requiert plus d'inférer une stratégie mais seulement d’en exécuter les étapes, les modèles échouent au même niveau de complexité. De plus, les performances diffèrent selon les types de puzzles. Par exemple, un modèle peut effectuer avec succès plus de 100 étapes correctes dans le cas du Tower of Hanoi, mais échoue systématiquement après quelques mouvements dans le puzzle River Crossing, bien que celui-ci soit objectivement moins complexe. Cela pourrait refléter une moindre fréquence d’exposition à certains types de tâches dans les données d’entraînement.

Des modèles encore instables et peu généralisables

Les LRMs, malgré leurs mécanismes sophistiqués de réflexion, ne développent pas de compétences de raisonnement généralisables. Ils sont instables face à l’augmentation de la complexité, présentent des comportements inefficients, voire erratiques, et semblent limités par leur capacité à exécuter des raisonnements séquentiels cohérents. Cette étude met ainsi en lumière les failles méthodologiques et architecturales des approches actuelles et invite à repenser en profondeur la conception, l'entraînement et l’évaluation des modèles de raisonnement automatisé.

Vous souhaitez commenter cet article ?

L'accès à la totalité des fonctionnalités est réservé aux professionnels de la santé.

Si vous êtes un professionnel de la santé vous devez vous connecter ou vous inscrire gratuitement sur notre site pour accéder à la totalité de notre contenu.
Si vous êtes journaliste ou si vous souhaitez nous informer écrivez-nous à redaction@rmnet.be.