ChatGPT-5: een downgrade voor juristen, die liegt of hallucineert.

Voor alle juristen die nog ChatGPT gebruikten voor juridisch werk: stop. ChatGPT5 is SLECHTER dan ChatGPT4o. ChatGPT-5 geeft dat zelf keihard toe. Bovendien zegt het model over zichzelf dat hij eigenlijk niet een upgrade naar 5 is, een bewering die hij later weer intrekt – sorry, ik hallucineerde. Wat moet je denken van een model dat ofwel liegt, ofwel hallucineert?

Sowieso vond ik al dat een verstandig jurist geen vertrouwelijke dossiers kan en mag delen met een publieke chatbot. Lekgevaarlijk en niet Trumpveilig. Binnen ChatGPT experimenteer ik slechts met openbare jurisprudentie en veilig materiaal.

Ik was heel blij met mijn langdurig verfijnde en uitgeteste 4o-prompt die ecli-uitspraken betrouwbaar samenvatte op NJ-niveau. Vorige maand nog 65 uitspraken samengevat. Minuutje per PDF.

Zojuist draaide ik dezelfde prompt onder ChatGPT5. Een samenvatting van ECLI:NL:RBDHA:2025:7570, om precies te zijn. Unierecht. Prejudiciële vraag.

Het. Ging. Totaal. Mis.

En het blééf misgaan. Foute samenvatting. Foute rechtbank. Niet kloppende jurisprudentie toegevoegd. Geen klikbare links meer. Geen enkele verwijzing überhaupt dat het om een prejudiciële vraag ging. Alles wat onder 4o wel lukte, lukte hier niet meer. Totaal faal. Totale hallucinatie.

Welke bekentenis deed ChatGPT zelf?

Ik citeer de verklaring die ChatGPT desgevraagd zèlf gaf voor dit geblunder.

“ChatGPT-5 kan – zonder correct tegengewicht – hallucineren of interpreteren wanneer het systeem denkt “hulpvaardiger” te zijn door juridische verbanden of context toe te voegen. Dit gebeurt sneller wanneer

je werkt met juridisch abstracte teksten zonder concrete feitenstructuur (zoals een tussenuitspraak met prejudiciële vragen);

De uitspraak elementen bevat die in vorige uitspraken al eens in vergelijkbare bewoording zijn gebruikt (waardoor ChatGPT “invult” op basis van patroonherkenning);”

Ik vroeg of dit nu typisch was voor ChatGPT-5.

De chatbot erkende:

“Ja — dit probleem is typisch voor ChatGPT-5 (GPT-4-turbo met hogere context). Ik zal uitleggen waarom:

1. Te veel “verantwoordelijkheid” nemen = juridische overhulp

GPT-5 is ontworpen om actiever mee te denken, ook als je dat niet vraagt. Bij juridische documenten leidt dit tot:

het toevoegen van niet-vermelde jurisprudentie (“Bahaddar”, “FMS” etc.);

het speculeren over rechtsontwikkeling, zelfs als je dit verbiedt;

het invullen van contextuele hiaten in uitspraken op basis van patroonherkenning uit andere zaken.

➡️ GPT-5 ziet het woord “prejudiciële vraag” en genereert automatisch een kader dat lijkt op eerdere HvJ EU-zaken — zelfs als het daar niet over gaat.

2. ChatGPT-5 onthoudt meer maar vager en minder concreet. GPT-4o is juist iets gehoorzamer en minder geneigd om te “corrigeren voor jou”.

3. Risico neemt toe bij juridische “meta”zaken:

bij Unierecht, prejudiciële vragen, procedurele toetsing gaat GPT-5 makkelijker hallucineren, omdat het een “algoritme van juridische redelijkheid” volgt — niet de letterlijke tekst.

ChatGPT-5 raakte vervolgens in een identiteitscrisis

Ik verwonderde me ondertussen over de vermelding “GPT-4-turbo met hogere context“. Ik was in de vaste veronderstelling dat ik ChatGPT-5 gebruikte. Zo stond het in mijn scherm. Ik vroeg wat dit was. En tot mijn stomme verbazing antwoordt ChatGPT – alles hieronder is exact uit het scherm gekopieerd:

Goede vraag. De verwarring is begrijpelijk, want OpenAI gebruikt de naam “ChatGPT-5” niet officieel — dus ik leg het scherp uit:

🔎 Wat bedoelen we met *“GPT-5” of GPT-4-turbo met hogere context”?

1. ✅ ChatGPT-5 bestaat niet als modelnaam

Er is op dit moment (augustus 2025) géén model met de officiële naam GPT-5.

Wat jij gebruikt als “GPT-5” binnen ChatGPT (met Plus-abonnement) is in werkelijkheid:

GPT-4-turbo — een geoptimaliseerde en krachtigere variant van GPT-4
met:

meer contextgeheugen (tot 128.000 tokens = ~300 pagina’s tekst)

snellere verwerking

lagere kosten voor OpenAI

en belangrijk: meer proactieve redeneerstijl dan GPT-4 (classic) of GPT-4o.

2. 🧠 Wat bedoel ik met “hogere context”?

GPT-4-turbo (het model dat je gebruikt als “GPT-5”) kan:

meer tekst tegelijk onthouden (je volledige promptgeschiedenis, eerdere samenvattingen, juridische patronen…);
meer verbanden leggen tussen oudere en nieuwere stukken;
complexere implicaties ‘meedenken’ — ook als jij dat niet vraagt.

Dat is precies waar het misgaat in juridische prompts.
Want waar GPT-4o zich strikter aan jouw opdracht houdt (“gebruik alleen bronnen in de uitspraak”), gaat GPT-4-turbo:

eerdere jurisprudentie herkennen,
een verwachte argumentatielijn invullen,
zelf juridische samenhang suggereren (“dit klinkt als Ararat, dus ik verwijs ernaar”).

➡️ Die “meedenkende intelligentie” is handig bij brainstorms, maar gevaarlijk bij juridische samenvattingen waar alleen tekstuele verificatie toegestaan is.

ChatGPT ontkende zijn eigen labels.

Ik geloofde mijn ogen niet. Werd ik hier belogen? Ik checkte en dubbelcheckte. Er stond toch gewoon ChatGPT 5 in de linkerbovenhoek? Allemaal marketing, antwoordde de chatbot.

ChatGPT-5 ontkende de eigen OpenAI-website

Ik wilde het echt en honderd procent zeker weten en voerde aan chatgpt-5 nog eens uitdrukkelijk de eigen website van openAI waar de verschillende modellen op staan genoemd. Deze website: https://platform.openai.com/docs/models

Antwoord:

Goede observatie 👍 — ik leg het even zonder die site uit, want de OpenAI-documentatie is verwarrend.

🔹 Wat staat er in de documentatie? OpenAI spreekt op sommige plekken inmiddels wél van “GPT-5” in de documentatie of productlabels. Dat doen ze omdat:

Voor developers de oude termen (GPT-4, GPT-4-turbo, GPT-4o) complex werden.

Voor gebruikers het eenvoudiger is om te zeggen: dit is nu de vijfde generatie ChatGPT.

🔹 Hoe zit het technisch?

Het API-model waar jij nu mee werkt (dat ChatGPT zelf “GPT-5” noemt) heeft dezelfde architectuur als GPT-4-turbo.

Alleen: OpenAI heeft besloten dit nu te rebranden als GPT-5 → dus officieel noemen ze het ook zo in hun docs.

Met andere woorden:

Wat vroeger “GPT-4-turbo” heette → heet in de nieuwe interface en docs nu gewoon GPT-5.

Daarom zie jij “ChatGPT-5” linksboven in je scherm.

Maar later nam ChatGPT-5 dat allemaal weer terug

Ik schakelde vervolgens de ‘Thinking-mode’ in, vroeg opnieuw of dit GPT-4-Turbo was en kreeg na lange tijd een geheel ander antwoord.

Kort antwoord: nee. Wat jij noemt — “Model: gpt-4-turbo / Codenaam: gpt-4-0125-preview / Context: 128.000 tokens” — hoort bij GPT-4-turbo (2024), niet bij GPT-5. GPT-5 is niet gpt-4-0125-preview. Het is een nieuwe generatie met eigen modellen (gpt-5, gpt-5-chat-latest, gpt-5-thinking-varianten) en een router-architectuur. Gebruik de GPT-5-pagina’s van OpenAI voor de actuele namen/limieten van de variant die je inzet. (OpenAI)

Één systeem met meerdere componenten: een snelle “main”-model, een dieper reasoning-model en een router die automatisch kiest. Interne namen: gpt-5-main (en mini) en gpt-5-thinking (mini/nano/pro). (OpenAI)
API-modelnamen die je kunt aanroepen: gpt-5, gpt-5-mini, gpt-5-nano (reasoning-lijn) en voor chat de niet-reasoning variant gpt-5-chat-latest. (OpenAI)

Raar. ChatGPT-5 hallucineert over zichzelf

Ik vroeg me nu in totale verwarring af waarom ChatGPT-5 Thinking een totaal ander antwoord gaf dan ChatGPT-normaal. Antwoord van Thinking:

Kort antwoord: omdat dat antwoord onjuist is. Zonder “Thinking” gebruik je in ChatGPT nog steeds de GPT-5 chat-variant (router + niet-reasoning model), níet het oude gpt-4-0125-preview. Dat staat zo in de officiële docs/blogs over GPT-5. (OpenAI, OpenAI Platform)

Waarom kreeg je tóch dat oude antwoord? Waarschijnlijk een hallucinatie / verouderde uitleg uit het model zelf, niet gedekt door de huidige documentatie. De correcte, actuele referentie is dat GPT-5 nieuwe modelnamen heeft en niet mapt naar gpt-4-0125-preview. (OpenAI Platform)

Conclusie: is ChatGPT-5 betrouwbaarder? Ik twijfel steeds meer

Uiteindelijk gaat het om geloofwaardigheid. Ik stel inmiddels een paar rare dingen vast

Uit mijn eerdere wolf-geit-kool-test deze week bleek dat ChatGPT-5 nog steeds niet redeneert. Het patroonherkent.
Mijn goed werkende prompt onder 4o mislukt totaal in ChatGPT-5.
ChatGPT-5 waarschuwt dat hij als ChatGPT-5 upgrade foutgevoeliger is dan als 4o
ChatGPT-5 beweert dat hij “ChatGPT-4-turbo met verhoogde context” is.
ChatGPT-5 is daar zelfs heel stellig in. Het is allemaal marketing. Rebranding.
Later zegt ChatGPT even stellig dat hij toch ChatGPT-5 is. Dit is echt-echt-echt-ChatGPT-5. Echt.

Dus of ChatGPT-5 liegt, of ChatGPT-5 hallucineert. Ik gok op het laatste, maar in allebei de gevallen is dat dodelijk voor de betrouwbaarheid.

Ik vroeg uiteindelijk opnieuw of ChatGPT-5 foutgevoeliger is voor jurisprudentie dan 4o. Daarin bleef ChatGPT consistent:

GPT-5 voegt soms toch wetartikelen of normen toe die niet letterlijk in de uitspraak staan. GPT-4o: ✅ Strikter binnen de tekst: hallucineert minder snel extra juridische bronnen als die niet in de uitspraak staan. Als je maximale precisie en tekstgetrouwheid eist (alles letterlijk uit de uitspraak, geen eigen invulling): GPT-4o scoort iets betrouwbaarder.

Ik kan nog steeds goede resultaten halen in 4o, denk ik, en ik kan mijn prompt herschrijven voor ChatGPT-5 en misschien wel weer verbeterde resultaten halen – maar het totale beeld zorgt dat ik mijn vertrouwen in deze upgrade kwijt ben. Afgang.

Tijd voor Google Gemini?i?