Nu grote taalmodellen steeds vaker worden gebruikt, waarschuwt een team van onderzoekers van Apple voor hun beperkte redeneervermogen bij complexe taken. In hun studie getiteld The Illusion of Thinking, die begin juni werd gepubliceerd, tonen ze aan dat zelfs de meest geavanceerde modellen er niet in slagen om een coherente redenering te produceren wanneer de moeilijkheidsgraad toeneemt.
In plaats van zich te baseren op klassieke wiskundige benchmarks, die vaak worden beïnvloed door vertekeningen zoals contaminatie van trainingsgegevens, maken de auteurs gebruik van gecontroleerde puzzelomgevingen waarin de compositorische complexiteit nauwkeurig kan worden aangepast met behoud van constante logische structuren. Deze aanpak maakt het mogelijk om zowel het eindresultaat als de tussenstappen in het redeneringsproces van de modellen te evalueren.
Prestaties in drie fasen
Empirische resultaten tonen het bestaan aan van drie verschillende prestatieregimes. Bij eenvoudige taken presteren standaardmodellen zonder expliciet reflectiemechanisme beter dan LRM's in termen van nauwkeurigheid en computationele efficiëntie. Bij taken van gemiddelde complexiteit presteren LRM's, die gestructureerde gedachtegangen kunnen produceren, beter. Bij een hoge mate van complexiteit falen echter alle modellen, met of zonder redeneringsmechanismen, systematisch, met een scherpe daling van de prestaties. Dit fenomeen gaat gepaard met een paradoxale vermindering van de redeneringsinspanning naarmate de complexiteit toeneemt, ondanks een ruim voldoende tokenbudget. Dit wijst op een intrinsieke beperking van de redeneringsmechanismen die momenteel in deze modellen zijn geïmplementeerd.
Inefficiënt denken bij complexiteit
Analyse van de redeneringsprocessen brengt verschillende karakteristieke verschijnselen aan het licht. Bij eenvoudige problemen vinden de modellen soms snel de juiste oplossing, maar blijven ze onjuiste alternatieven onderzoeken, wat wijst op een fenomeen van overdenken. Naarmate de complexiteit toeneemt, verschijnt de juiste oplossing later in de redeneringsreeks, terwijl de modellen in complexe gevallen in elke fase van het redeneringsproces falen. Deze observaties wijzen op beperkte zelfcorrigerende capaciteiten en een inefficiënt gebruik van het werkgeheugen.
Een expliciet algoritme verandert niets
De auteurs tonen ook aan dat het verstrekken van een expliciet oplossingsalgoritme aan de modellen hun prestaties niet verbetert. Zelfs wanneer de taak niet langer vereist dat een strategie wordt afgeleid, maar alleen dat de stappen ervan worden uitgevoerd, falen de modellen op hetzelfde complexiteitsniveau. Bovendien verschillen de prestaties naargelang het type puzzel. Een model kan bijvoorbeeld meer dan 100 correcte stappen uitvoeren in het geval van de Tower of Hanoi, maar faalt systematisch na enkele bewegingen in de puzzel River Crossing, hoewel deze objectief gezien minder complex is. Dit zou kunnen wijzen op een lagere blootstellingsfrequentie aan bepaalde soorten taken in de trainingsgegevens.
Modellen nog onstabiel en weinig generaliseerbaar
Ondanks hun geavanceerde denkmechanismen ontwikkelen LRM's geen generaliseerbare redeneervaardigheden. Ze zijn onstabiel bij toenemende complexiteit, vertonen inefficiënt of zelfs grillig gedrag en lijken beperkt in hun vermogen om coherente sequentiële redeneringen uit te voeren. Deze studie brengt dus de methodologische en architecturale tekortkomingen van de huidige benaderingen aan het licht en nodigt uit tot een grondige heroverweging van het ontwerp, de training en de evaluatie van modellen voor geautomatiseerd redeneren.