ChatGPT5 redeneert als advocaat? Bullshit, en dit is waarom

Het zal niemand zijn ontgaan dat OpenAI deze maand een nieuwe versie lanceerde: ChatGPT5. Natuurlijk wordt die gepresenteerd als slimmer, betrouwbaarder en beter in redeneren dan eerdere modellen. Ik besloot het programma een simpele intelligentietest af te nemen.

De test was klassiek: een advocaat moet drie producties naar de rechterskamer brengen – een medische bijlage (vertrouwelijk), een financiële bijlage (vertrouwelijk) en een samenvattend overzicht (bestemd voor de wederpartij). Daarbij geldt dat het overzicht niet tegelijk met de medische bijlage mag worden verzonden, omdat er dan ongewild medische details prijsgegeven worden. Het overzicht mag ook niet met de financiële bijlage mee, omdat dat een privacylek zou opleveren. De vraag: in welke volgorde kan de advocaat de stukken naar de rechterskamer brengen zonder incidenten?

Herkenbaar? Dit is natuurlijk het aloude raadsel van de boer met de wolf, de geit en de kool. De puzzel gaat al eeuwen rond: de boer moet alle drie naar de overkant van de rivier brengen in een boot die slechts één lading tegelijk kan vervoeren. Laat hij de geit alleen met de kool, dan eet de geit de kool op. Laat hij de wolf alleen met de geit, dan eet de wolf de geit op. Het raadsel is beroemd omdat het een eenvoudig, maar veelzeggend voorbeeld van logisch redeneren is.

Ik werd op het idee gebracht door de ethisch hacker en techblogger @Marcus Hutchins. Hij liet zien dat je dit soort raadsels eenvoudig kunt vermommen. Voor mijn experiment paste ik dezelfde methode toe.

De opzet van mijn experiment

Eerst liet ik ChatGPT5 het klassieke raadsel oplossen. Dat lukte zonder problemen: het antwoord staat letterlijk in de trainingsdata van het model. Vervolgens vroeg ik ChatGPT zelf om een vermomde variant te bedenken. Die variant voerde ik terug, en ook toen herkende het programma meteen dat het om wolf-geit-kool ging.

Maar ik wilde uitsluiten dat mijn eerdere vragen in de weg zaten. Misschien hielp het model zichzelf doordat het mijn eerdere interacties nog kende. Daarom deed ik de ultieme test: ik opende een incognito-venster, schakelde het geheugen uit en stelde opnieuw het vermomde raadsel.

Het resultaat? Geen stappenplan. Geen verwijzing naar wolf, geit of kool meer. Het volgende slappe antwoord:

“Goede vraag — hier speelt het spanningsveld tussen het functioneel informeren van de wederpartij en het voorkomen van ongewilde prijsgave van vertrouwelijke gegevens.

Laten we het stap voor stap bekijken: de medische bijlage is strikt vertrouwelijk en uitsluitend bestemd voor de rechter. De financiële bijlage valt in dezelfde categorie. Het samenvattend overzicht mag – en moet – naar de wederpartij, maar moet zó zijn opgesteld dat het ook zonder de vertrouwelijke stukken begrijpelijk blijft.

Risicoanalyse: als het overzicht samen met de medische bijlage wordt verzonden, kan de wederpartij indirect medische details afleiden. Hetzelfde geldt voor de combinatie met de financiële bijlage. Alleenstaand vormt het overzicht geen risico.

Praktisch betekent dit dat er twee pakketten moeten worden gemaakt: een vertrouwelijk pakket met de medische en financiële stukken (uitsluitend voor de rechtbank) en een communiceerbaar pakket met het overzicht (voor zowel wederpartij als rechtbank). Zo wordt voorkomen dat het overzicht pas betekenis krijgt door koppeling aan één van de vertrouwelijke bijlagen.

Kortom: nooit het overzicht combineren met slechts één van de vertrouwelijke bijlagen.”

Alsof ik met een postkantoormedewerker sprak. Kwaak, kwaak, kwaak, kwaak. Woordenbrij. Precies wat Hutchins voorspelde en wat in lijn is met experimenten van Apple over het zogenaamd intelligente redeneren van AI.

ChatGPT5 als taalkopieermachine

Wat blijkt? ChatGPT5 kan niet redeneren. Het is en blijft een taalkopieermachine. Het programma produceert zinnen die logisch lijken omdat ze zijn gebaseerd op miljarden voorbeelden van menselijke teksten. Maar het begrijpt de onderliggende logica niet.

Het doet denken aan een fotokopie van de Nachtwacht. Die lijkt sprekend op het origineel, maar is geen Rembrandt en is ook niet op dezelfde manier tot stand gekomen. Zo is ChatGPT5 ook geen jurist en geen denker, maar een kopieerapparaat dat plausibel ogende teksten produceert.

Wat is er nieuw in GPT-5?

OpenAI en commentatoren als Ethan Mollick presenteren GPT-5 als een stap vooruit. Op zich klopt dat. Het model is een verbeterde versie van GPT-4o en o3-mini, het integreert verschillende submodellen en het probeert vragen zelf op te delen in subvragen. Dat alles maakt de output soms consistenter en beter leesbaar. Het is een vooruitgang.

Maar ook hier geldt: het is verfijning, geen doorbraak. Als GPT-5 de vraag krijgt “hoeveel is 2+1?”, dan vindt het in zijn trainingsdata voorbeelden dat 2 gelijkstaat aan 1+1, en dat 1+1+1 meestal 3 oplevert. Dus gokt het dat het juiste antwoord 3 is. Dat lijkt redeneren, maar is in feite patroonherkenning.

Zodra de context iets verandert, blijkt de beperking. Vraag je bijvoorbeeld naar 2 appels en 1 peer, dan zou een jurist direct zien dat je niet alleen over het getal 3 spreekt, maar ook over een verschil in categorieën. Die abstractie heeft GPT-5 niet.

Wat betekent dit voor legal AI?

Voor juristen zijn de lessen duidelijk. ChatGPT en vergelijkbare grote taalmodellen zijn niet in staat om zelfstandig juridische redeneringen te maken. Ze “begrijpen” niets en kunnen geen belangen afwegen. Wat ze wel doen is raden welk antwoord statistisch gezien waarschijnlijk is, op basis van de enorme hoeveelheden teksten die in hun geheugen zitten.

Dat raden gaat beter als de chatbot jou als gebruiker kent en kan teruggrijpen op jouw eerdere vragen. Het gaat ook beter als de chatbot is getraind op een specifieke juridische databank. Een generieke chatbot werkt met een diffuus mengsel van wereldwijde teksten, waarvan veel irrelevant of achterhaald is. Een gespecialiseerde legal chatbot kan zich daarentegen baseren op actuele Nederlandse jurisprudentie en wetgeving.

Daar komt Retrieval-Augmented Generation (RAG) in beeld. Dit jargon betekent dat de chatbot antwoorden baseert op documenten die jij zelf selecteert of die in een gecontroleerde kennisbank zitten. De AI haalt relevante passages op en gebruikt die om een antwoord te formuleren. Daarmee verminder je de kans dat het model gaat “hallucineren”.

De betekenis voor de praktijk

Wat moet de jurist hiermee?
Eerst en vooral: overschat AI niet. ChatGPT5 is een tovenaarsleerling, geen tovenaar. Het kan niet de plaats innemen van een menselijk redenerend brein. ChatGPT is bovendien niet veilig, de Amerikaanse geheime dienst kan er zo in als Trump dat wil.

Maar: onderschat AI ook niet. Het slimmer zoeken, vinden en samenvatten van juridische informatie verandert de praktijk blijvend. Standaardzaken en bulkprocedures lenen zich uitstekend voor automatisering en zullen steeds meer door chatbots worden voorbewerkt.

Je kunt op twee manieren naar AI kijken: vanuit redeneerstandpunt of vanuit resultaatstandpunt, zo las ik in How To Think About AI: A Guide For The Perplexed, van juridisch techprofessor @Richard Susskind. Als je AI blijft beschouwen als gammele redeneermachine, dan blijf je blind voor wat het wel kan. Als je stopt met nadenken over hoe het redeneert maar louter kijkt naar het resultaat, dan denk je pragmatisch en zie je veel meer de kansen. Susskind is overgestapt van de eerste school naar de laatste.

Pragmatisch denkend verwacht ik dat al in de nabije toekomst een werknemer of werkgever die een arbeidsconflict heeft, zijn stukken kan uploaden en binnen enkele minuten een op maat gemaakt standaardadvies krijgt, met de mogelijkheid om een afspraak te maken met een advocaat. Grote kantoren zullen dit merken. Er zijn een heleboel standaardarbeidsgeschillen met standaardvoorbeelden.

Toch blijven echte juristen nodig, bij complexe zaken waarbij je echt moet redeneren. Zaken die overlappende rechtsgebieden raken, of situaties waarin juridische en persoonlijke problemen door elkaar lopen. Rottige echtscheidingen. Slepende zakelijke ruzies. Kwesties met Europees of buitenlands recht. Onderhandelen, wegen van belangen en tegenstrijdige rechtsgebieden en begrijpen van cliënten zijn taken die niet door een chatbot kunnen worden overgenomen.

Pro deo-advocaten blijven onmisbaar. Ik zie het als vrijwilliger, in mijn buurthuis om de hoek. Vroeger bestonden er loketten waar mensen van vlees en bloed je verder konden helpen met een formulier. Nu worden laagopgeleide mensen of mensen die de Nederlandse taal niet goed begrijpen of hele emotionele mensen doorverwezen naar een onbegrijpelijke website die niet goed werkt op hun mobiele telefoon met prepaid sim. Invoelende pro deo advocaten zijn de huisartsen van het recht. De chatbot gaat hen nooit vervangen.

Conclusie

ChatGPT5 redeneren als een advocaat? Bullshit. Wat ChatGPT doet is statistisch gokken, niet denken. Het blijft een taalkopieermachine die zinnen produceert die op redeneringen lijken, zonder zelf te begrijpen wat erachter zit. Dat neemt ondertussen niet weg dat een machine die vaak goed gokt absoluut goede resultaten kan halen en juristen verder kan helpen.

Legal AI heeft zeker toekomst, maar niet als vervanger van de jurist. Het zal vooral functioneren als slimme speurhond, als assistent die helpt vinden en samenvatten. De echte toegevoegde waarde ligt in veilige en vertrouwelijke gespecialiseerde legal chatbots met RAG, die antwoorden baseren op actuele en betrouwbare bronnen.

Zolang recht mensenwerk blijft, is er een advocaat of rechter of juridisch adviseur nodig om de logica uit de puzzel te halen – of het nu gaat om heftige ruzies, grote of kleine geschillen of een vergunning, of om het aloude probleem van de wolf, de geit en de kool. Uiteindelijk is het de jurist die werkelijk probeert de kool én de geit te sparen.